La media de la muestra de un vector normal multivariado $ \mathbf {X}=(X_1, X_2, \ldots , X_n)$ es una función de
$$M = X_1+X_2+ \cdots X_n$$
y la varianza de la muestra es una función del vector residual con componentes
$$Z_i = -X_1 - X_2 - \cdots - X_{i-1} + (n-1)X_i - X_{i+1} - \cdots - X_n,$$
$i=1, 2, \ldots , n$ .
Deje que $ \Sigma $ ser la matriz de covarianza de $ \mathbf {X}$ . Escriba $ \sigma_i $ para la suma de la columna (o fila) $i$ de $ \Sigma $ , $ \sigma_i = \Sigma_ {1i} + \Sigma_ {2i} + \cdots + \Sigma_ {ni}$ y dejar que $ \sigma $ ser la suma de todas las entradas de $ \Sigma $ . Podemos calcular
$$ \operatorname {Cov}(M, Z_i) = n \sigma_i - \sigma. $$
Porque ambos $M$ y $Z_i$ son combinaciones lineales de variables normales multivariadas, son conjuntamente normales, de donde son independientes si y sólo si su covarianza es cero. Por consiguiente, $M$ es independiente de todos los $Z_i$ si y sólo si
$$n \sigma_1 = n \sigma_2 = \cdots = n \sigma_n = \sigma. $$
En otras palabras, La igualdad de las sumas de las columnas garantiza la independencia de la media y los componentes de la varianza de la muestra, de donde garantizará la independencia de la media y la propia varianza de la muestra.
Aunque lo contrario no es cierto es posible para $M$ no para ser independiente de la $Z_i$ pero para $M$ para ser independiente de la media de la muestra esto requiere circunstancias excepcionales. En casi todos los casos, la desigualdad de las sumas de las columnas crea una dependencia entre la media de la muestra y la desviación estándar de la muestra.
Por definición, en un proceso estacionario las covarianzas $ \Sigma_ {ij}$ puede depender sólo de $i-j$ . Aunque esto no garantiza que las sumas de las columnas sean todas iguales, para grandes $n$ y una covarianza que decae con suficiente rapidez con $|i-j|$ será aproximadamente cierto, porque en el límite las sumas de las columnas son todas iguales:
$$ \sigma_i = \sum_ {j=- \infty }^ \infty \Sigma_ {ji} = \sum_ {j=- \infty }^ \infty \Sigma_ {jk} = \sigma_k. $$
Todo lo que se requiere es la convergencia de estas sumas.
Una buena manera de ver la dependencia en el gráfico de dispersión es hacer los puntos con más cuidado. Cuando se hacen semitransparentes, se puede ver mejor la densidad subyacente. Una suavidad de la baja ayuda a demostrar una variación en la desviación estándar con la media en este ejemplo donde $n=8$ y las sumas de las columnas de $ \Sigma $ varían apreciablemente.
![Scatterplot]()
Aquí está el R
el código que lo generó.
library(MASS) # mvrnorm()
set.seed(17)
n <- 5e4 # Simulation size
d <- 8 # Dimension
k <- 4 # Size of upper block of Sigma
rho <- 0.99 # Correlation in upper block
mu <- rep(0, d) # Mean
Sigma <- outer(1:d, 1:d, function(i,j) ifelse(i <= k & j <= k, rho^abs(i-j), i==j))
colSums(Sigma)
x <- mvrnorm(n, mu, Sigma)
sim <- t(apply(x, 1, function(y) c(mean(y), sd(y))))
plot(sim, pch=16, cex=0.5, col="#00000008",
xlab="Mean", ylab="SD")
i <- order(sim[, 1])
lines(sim[i, 1], lowess(sim[i, 2], f=1/20)$y, col="Red", lwd=2)
# g <- cut(sim[, 1], quantile(sim[, 1], seq(0, 1, by=0.025)))
# boxplot(sim[, 2] ~ g)