5 votos

Matriz de covarianza de las variables aleatorias centradas en la media

Leo aquí que para una matriz de datos X de n x d, donde X está centrada en la media, V = $X^{T}*X$ es su matriz de covarianza. ¿Por qué?

Según entiendo el elemento $V_{i,j}$ de la matriz de covarianza se define por $E[(X_i - \mu_i)(X_j-\mu_j)]$ y aquí, debido al centrado medio tendríamos $V_{i,j} = E[(X_i)(X_j)]$ - pero esto no es equivalente a multiplicar X por su transposición, ¿o me estoy perdiendo algo?

5voto

palehorse Puntos 8268

Recordemos primero que para una variable escalar de media cero $Y$ la varianza es $$\sigma^2=E(Y^2) \tag{1}$$ . Y si tenemos una muestra de $n$ valores de los datos $Y_1, Y_2 \dots Y_n$ podemos estimar esta expectativa como una media muestral: $$s=\frac{\sum_{k=1}^n Y_k^2}{n} \tag{2}$$ Aquí $s$ no es la verdadera varianza sino un estimador (hay otros). $s$ es una variable aleatoria (variará entre experimentos) mientras que $\sigma^2$ es un parámetro constante. Si $n$ es grande, esperamos que ( en cierto sentido y bajo ciertas condiciones ) $s\to \sigma^2$ .

Supongamos ahora que tenemos una variable aleatoria $X$ que es multivariable, $X=(X_1,X_2 \cdots X_d)$ .

Entonces, utilizando su notación, y dado que son de media cero, tenemos $V_{i,j}=E(X_i X_j)$ que es lo mismo que $$V=E(X^t X) \tag{3}$$

Aquí, $V$ es aquí la "verdadera" covarianza ( $d \times d$ ) (análoga a la matriz $\sigma^2$ ), $X$ es una fila ( $1 \times d$ ), su transposición $X^t$ es una columna ( $d \times 1$ ).

Ahora, análogamente al caso escalar, supongamos que se tiene $n$ valores de los datos $X^{(1)} X^{(2)} \cdots X^{(f)}$ . Aquí cada dato es en sí mismo una columna de tamaño $d$ . De nuevo, podemos estimación la covarianza en $(3)$ como, por ejemplo:

$$ S= \frac{\sum_{k=1}^d {X^{(k)}}^t X^{(k)}}{n} \tag{4}$$

Un poco de reflexión muestra que lo anterior puede escribirse como

$$ S= \frac{D^t D}{n} \tag{5}$$

donde $D$ es la "matriz de datos" (cada $X^{(k)}$ es una fila de $D$ ) De nuevo, $S$ no es una "matriz de covarianza" sino un estimador de la matriz de covarianza, que a veces se llama (confusamente) también "matriz de covarianza". A veces, (a menudo) incluso el denominador $n$ se omite, porque sólo representa una normalización que, para algunas aplicaciones (por ejemplo, PCA) es irrelevante.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X