¿Al calcular la matriz de covarianza de una muestra, se garantiza entonces obtener una matriz simétrica y definida positiva?
Actualmente mi problema tiene una muestra de 4600 vectores de observación y 24 dimensiones.
¿Al calcular la matriz de covarianza de una muestra, se garantiza entonces obtener una matriz simétrica y definida positiva?
Actualmente mi problema tiene una muestra de 4600 vectores de observación y 24 dimensiones.
Para una muestra de vectores $x_i=(x_{i1},\dots,x_{ik})^\top$, con $i=1,\dots,n$, el vector medio de la muestra es $$ \bar{x}=\frac{1}{n} \sum_{i=1}^n x_i \, , $$ y la matriz de covarianza de la muestra es $$ Q = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^\top \, . $$ Para un vector no nulo $y\in\mathbb{R}^k$, tenemos $$ y^\top Qy = y^\top\left(\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^\top\right) y $$ $$ = \frac{1}{n} \sum_{i=1}^n y^\top (x_i-\bar{x})(x_i-\bar{x})^\top y $$ $$ = \frac{1}{n} \sum_{i=1}^n \left( (x_i-\bar{x})^\top y \right)^2 \geq 0 \, . \quad (*) $$ Por lo tanto, $Q$ siempre es positiva semidefinida.
La condición adicional para que $Q$ sea positiva definida fue dada en el comentario de whuber abajo.
Define $z_i=(x_i-\bar{x})$, para $i=1,\dots,n$. Para cualquier $y\in\mathbb{R}^k$ no nulo, $(*)$ es cero si y solo si $z_i^\top y=0$, para cada $i=1,\dots,n$. Supongamos que el conjunto $\{z_1,\dots,z_n\}$ abarca $\mathbb{R}^k$. Entonces, existen números reales $\alpha_1,\dots,\alpha_n$ tales que $y=\alpha_1 z_1 +\dots+\alpha_n z_n$. Pero entonces tenemos $y^\top y=\alpha_1 z_1^\top y + \dots +\alpha_n z_n^\top y=0$, lo que conlleva que $y=0$, una contradicción. Por lo tanto, si los $z_i$ abarcan $\mathbb{R}^k$, entonces $Q$ es positiva definida. Esta condición es equivalente a $\mathrm{rank} [z_1 \dots z_n] = k$.
Me gusta este enfoque, pero aconsejaría tener cuidado: $Q$ no es necesariamente definitivo positivo. Las condiciones (necesarias y suficientes) para que lo sea están descritas en mi comentario a la respuesta de Konstantin.
Dado que la clasificación de $[z_1, z_2, \cdots, z_n]$ es menor o igual a $k$, la condición se puede simplificar a que la clasificación sea igual a k.
Una matriz de covarianza correcta siempre es simétrica y positiva *semi*definida.
La covarianza entre dos variables se define como $\sigma(x,y) = E [(x-E(x))(y-E(y))]$.
Esta ecuación no cambia si intercambias las posiciones de $x$ e $y$. Por lo tanto, la matriz tiene que ser simétrica.
También tiene que ser positiva *semi-*definida porque:
Siempre puedes encontrar una transformación de tus variables de manera que la matriz de covarianza se vuelva diagonal. En la diagonal, encuentras las varianzas de tus variables transformadas que son cero o positivas, es fácil ver que esto hace que la matriz transformada sea positiva semidefinida. Sin embargo, dado que la definición de definidad es invariante a la transformación, se sigue que la matriz de covarianza es positiva semidefinida en cualquier sistema de coordenadas elegido.
Cuando estimas tu matriz de covarianza (es decir, cuando calculas tu covarianza muestral) con la fórmula que indicaste anteriormente, seguirá siendo simétrica. También tiene que ser positiva semidefinida (creo), porque para cada muestra, la pdf que otorga a cada punto de muestra igual probabilidad tiene la covarianza de la muestra como su covarianza (alguien por favor verifíquelo), por lo que todo lo dicho anteriormente sigue aplicando.
Pero si quieres saber si tu algoritmo de muestreo lo garantiza, tendrás que indicar cómo estás muestreando.
No Konstantine, lo has entendido bien :-) No sabía que la definición de definitivo es invariante a la transformación. Pero me gustaría investigarlo, ¿sabes de algún literatura o enlaces que podrían ser útiles?
La respuesta de @Zen más el comentario de @whuber a la respuesta de @Konstantin proporcionan una demostración completa. Sin embargo, reformularé la prueba intentando enfatizar más en lo estadístico.
De hecho, se puede decir que la matriz de covarianza de la muestra $S$ es siempre positiva y semidefinida, porque se puede ver como la varianza de una variable univariante adecuada, la cual es siempre no negativa.
Detalladamente, sean $x_1,\ldots,x_n$ la muestra observada, con $x_i = (x_{i1},\ldots,x_{ik})^\top$, $i=1,\ldots,n$. La matriz de covarianza de la muestra es $$ Q = n^{-1}\sum_{i=1}^n(x_i-\bar x)(x_i-\bar x)^\top, $$ donde $\bar x=n^{-1}\sum_{i}x_i$ es el promedio de la muestra.
Ahora consideremos cualquier vector $a = (a_1,\ldots,a_k)^\top$ y tomemos los $y_i$, combinación lineal de $x_i$ con coeficientes $a_i$, es decir, $$ y_i = a^\top x_i = a_1x_{11}+\cdots+a_{k}x_{ik},\quad\text{para todo } i. $$
Sea $\bar y$ el promedio de la muestra de los $y_i$'s y observe que $\bar y = a^\top \bar x$. La varianza de $y_i$ es \begin{align*} 0\leq s_{y}^2 &= n^{-1}\sum_i(y_i-\bar y)^2 = n^{-1}\sum_{i}(y_i-\bar y)(y_i-\bar y)^\top\\ & = n^{-1}\sum_{i} (a^\top x_i - a^\top \bar x)(a^\top x_i - a^\top \bar x)\\ & = a^\top\left(n^{-1}\sum_{i} (x_i - a^\top \bar x)(x_i -\bar x)\right)a\\ & = a^\top S a. \end{align*}
Dado que $a$ era arbitrario, esto completa la prueba.
Sea $$ X= \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix} $$ la matriz de datos cuya entrada $\left(i,j\right)$-ésima es la $i$-ésima medición de la $j$-ésima variable (con $i \in \{1,\ldots, n\}, j \in \{1,\ldots,k \}$).
La matriz de covarianza muestral $\mathcal S$ puede ser escrita como $\mathcal S=n^{-1}X^\top C_n X,$ donde $C_n=I_n-n^{-1}\mathbb{1}_n\mathbb{1}_n^\top$ es la matriz de centrado.
Dado que $C_n$ es simétrica e idempotente, también tenemos $\mathcal S=n^{-1}X^\top C_n^\top C_n X$.1 Pero con $Y\mathrel{:=}C_n X$ esto se convierte en $\mathcal S=n^{-1}Y^\top Y$, que es generalmente semidefinido positivo, y definido positivo solo si las columnas de $Y$ son linealmente independientes.
Esto significa que $\mathcal S$ es definido positivo si y solo si los vectores de medición centrados de las $k$ variables, es decir, los vectores $\left(x_{1j}-\bar{x}_{.j},\ldots,x_{nj}-\bar{x}_{.j}\right)^\top$ indexados por $j$, son linealmente independientes.
1Otra forma de ver que $\mathcal S$ puede ser escrito como $n^{-1}X^\top C_n^\top C_n X$ es interpretar $X^\top C_n^\top C_n X = \left(C_n X\right)^\top \left(C_n X\right)$ como la suma de productos externos de las filas del $X$ centrado por columnas consigo mismo.
Agregaría al buen argumento de Zen lo siguiente que explica por qué a menudo decimos que la matriz de covarianza es positiva definida si $n-1\geq k$.
Si $x_1,x_2,...,x_n$ son una muestra aleatoria de una distribución de probabilidad continua entonces $x_1,x_2,...,x_n$ son casi seguramente (en el sentido de la teoría de la probabilidad) linealmente independientes. Ahora, $z_1,z_2,...,z_n$ no son linealmente independientes porque $\sum_{i=1}^n z_i = 0$, pero debido a que $x_1,x_2,...,x_n$ son linealmente independientes casi seguramente, $z_1,z_2,...,z_n$ abarcan casi seguramente $\mathbb{R}^{n-1}$. Si $n-1\geq k$, también abarcan $\mathbb{R}^k.
Para concluir, si $x_1,x_2,...,x_n$ son una muestra aleatoria de una distribución de probabilidad continua y $n-1\geq k$, la matriz de covarianza es positiva definida.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
0 votos
Para muestrear la matriz de covarianza, utilizo la fórmula: $Q_n = \frac{1}{n} \sum\limits_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^\top $ donde $n$ es el número de muestras y $\bar{x}$ es la media muestral.
8 votos
Eso normalmente se llamaría 'calcular la matriz de covarianza de la muestra', o 'estimar la matriz de covarianza' en lugar de 'muestrear la matriz de covarianza'.
5 votos
Una situación común en la que la matriz de covarianza no es definitiva es cuando las 24 "dimensiones" registran la composición de una mezcla que suma el 100%.