8 votos

La media de la muestra y la independencia de la varianza en el caso de observaciones correlacionadas

¿Son independientes la media de la muestra y la varianza de la muestra de las observaciones normales correlacionadas?

La teoría clásica se basa en la independencia de las observaciones, pero no es así. Así que, como ejemplo, traté de simular 100k muestras de 5 elementos tomadas de un proceso estacionario, ergódico y aleatorio normal con media y covarianza conocidas, y evalué la distribución cruzada entre la media de la muestra y la varianza de la muestra y obtuve esto: sample mean vs sample std dev

Así que a partir de esta (y otras) simulaciones estoy empezando a creer que la media de la muestra y la varianza de la muestra para un proceso normal son independientes incluso si las muestras están correlacionadas, pero no sé cómo probar esto. ¿Alguna ayuda?

Editar: Básicamente necesito esto porque me gustaría saber si la relación entre la media de la muestra estandarizada y la desviación estándar de la muestra dividida por $ \sigma $ (proporción que debería distribuirse algo similar a $N(0,1)/ \sqrt { \sum \lambda_i\chi_i ^2/(n-1)}$ ) puede considerarse una relación de distribuciones independientes y, por lo tanto, su distribución puede simularse fácilmente de manera numérica.

7voto

jldugger Puntos 7490

La media de la muestra de un vector normal multivariado $ \mathbf {X}=(X_1, X_2, \ldots , X_n)$ es una función de

$$M = X_1+X_2+ \cdots X_n$$

y la varianza de la muestra es una función del vector residual con componentes

$$Z_i = -X_1 - X_2 - \cdots - X_{i-1} + (n-1)X_i - X_{i+1} - \cdots - X_n,$$

$i=1, 2, \ldots , n$ .

Deje que $ \Sigma $ ser la matriz de covarianza de $ \mathbf {X}$ . Escriba $ \sigma_i $ para la suma de la columna (o fila) $i$ de $ \Sigma $ , $ \sigma_i = \Sigma_ {1i} + \Sigma_ {2i} + \cdots + \Sigma_ {ni}$ y dejar que $ \sigma $ ser la suma de todas las entradas de $ \Sigma $ . Podemos calcular

$$ \operatorname {Cov}(M, Z_i) = n \sigma_i - \sigma. $$

Porque ambos $M$ y $Z_i$ son combinaciones lineales de variables normales multivariadas, son conjuntamente normales, de donde son independientes si y sólo si su covarianza es cero. Por consiguiente, $M$ es independiente de todos los $Z_i$ si y sólo si

$$n \sigma_1 = n \sigma_2 = \cdots = n \sigma_n = \sigma. $$

En otras palabras, La igualdad de las sumas de las columnas garantiza la independencia de la media y los componentes de la varianza de la muestra, de donde garantizará la independencia de la media y la propia varianza de la muestra.

Aunque lo contrario no es cierto es posible para $M$ no para ser independiente de la $Z_i$ pero para $M$ para ser independiente de la media de la muestra esto requiere circunstancias excepcionales. En casi todos los casos, la desigualdad de las sumas de las columnas crea una dependencia entre la media de la muestra y la desviación estándar de la muestra.

Por definición, en un proceso estacionario las covarianzas $ \Sigma_ {ij}$ puede depender sólo de $i-j$ . Aunque esto no garantiza que las sumas de las columnas sean todas iguales, para grandes $n$ y una covarianza que decae con suficiente rapidez con $|i-j|$ será aproximadamente cierto, porque en el límite las sumas de las columnas son todas iguales:

$$ \sigma_i = \sum_ {j=- \infty }^ \infty \Sigma_ {ji} = \sum_ {j=- \infty }^ \infty \Sigma_ {jk} = \sigma_k. $$

Todo lo que se requiere es la convergencia de estas sumas.


Una buena manera de ver la dependencia en el gráfico de dispersión es hacer los puntos con más cuidado. Cuando se hacen semitransparentes, se puede ver mejor la densidad subyacente. Una suavidad de la baja ayuda a demostrar una variación en la desviación estándar con la media en este ejemplo donde $n=8$ y las sumas de las columnas de $ \Sigma $ varían apreciablemente.

Scatterplot

Aquí está el R el código que lo generó.

library(MASS)   # mvrnorm()
set.seed(17)
n <- 5e4        # Simulation size
d <- 8          # Dimension
k <- 4          # Size of upper block of Sigma
rho <- 0.99     # Correlation in upper block
mu <- rep(0, d) # Mean
Sigma <- outer(1:d, 1:d, function(i,j) ifelse(i <= k & j <= k, rho^abs(i-j), i==j))
colSums(Sigma)

x <- mvrnorm(n, mu, Sigma)
sim <- t(apply(x, 1, function(y) c(mean(y), sd(y))))

plot(sim, pch=16, cex=0.5, col="#00000008",
     xlab="Mean", ylab="SD")
i <- order(sim[, 1])
lines(sim[i, 1], lowess(sim[i, 2], f=1/20)$y, col="Red", lwd=2)
# g <- cut(sim[, 1], quantile(sim[, 1], seq(0, 1, by=0.025)))
# boxplot(sim[, 2] ~ g)

1voto

Taylor Puntos 692

Sólo si $ \Sigma $ es diagonal, según parece. (véase la edición). Voy a mirar la covarianza entre $[ \bar {X}, \ldots , \bar {X}]'$ y $X - [ \bar {X}, \ldots , \bar {X}]'$ . Es más fácil trabajar con los desvíos no cuadrados que con la suma de desvíos cuadrados.

Deje que $X \sim \text {Normal}( \mu , \Sigma )$ donde $X, \mu \in R^n$ . Deje que $ \Sigma $ se parece a lo que tú quieras. No en diagonal, porque no quieres independencia entre las muestras. Siempre y cuando sea simétrico y positivo definitivo (asumo que estamos tratando con normales de rango completo aquí).

Entonces uso la bilinearidad de $Cov( \cdot , \cdot )$ .

$Cov(1 \frac {1}{n}1'X, (I- \frac {1}{n}11')X) = \frac {1}{n}11' \Sigma (I- \frac {1}{n}11') = \frac {1}{n}11' \Sigma - \frac {1}{n}11' \Sigma \frac {1}{n}11' = \frac {1}{n}11' \Sigma - \frac {1}{n^2}11' \Sigma 11'$

Como señala Whuber, la covarianza/correlación 0 sólo implica independencia en el caso de vectores normales. Esto se puede demostrar escribiendo la densidad y viendo sus factores.

Editar: whuber tiene razón en que mi conclusión final es incorrecta. Él vino con un criterio más general que garantiza la independencia (+1). A continuación continúo verificando su respuesta con mi notación. Deje que $e_i = (0, \ldots , 1, \ldots , 0)'$ ser el vector con un uno en el $i$ el lugar. La condición de Whuber de que las sumas de las filas o columnas sean iguales es equivalente a asumir que $ \Sigma e_i = \Sigma e_k$ para $i \neq k$ o $e_i' \Sigma = e_k' \Sigma $ . Si reescribimos $ \Sigma 1$ como $ \sum_ {i=l}^n \Sigma e_l$ entonces $ \Sigma 1 = n \Sigma e_1$ y $Cov(1 \frac {1}{n}1'X, (I- \frac {1}{n}11')X)$ se convierte en diagonal usando la derivación anterior. Nota al margen: disculpas por la sobrecarga $ \Sigma $ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X