18 votos

Se PCA componentes multivariante de Gauss datos estadísticamente independientes?

Se PCA de los componentes (en el análisis de componentes principales) estadísticamente independientes si nuestros datos es la de una distribución normal multivariante? Si es así, ¿cómo puede ser esto demostrado/probado?

Lo pregunto porque vi este post, donde la respuesta de los estados:

PCA no hacer explícito Gaussianidad de la asunción. Encuentra los vectores propios que maximizar la varianza explicada en los datos. La ortogonalidad de los principales componentes que significa que se encuentra la mayoría de los componentes no correlacionados para explicar tanto la variación en los datos como sea posible. Para multivariante de distribución gausiana, la correlación cero entre los componentes implica la independencia, que no es cierto para la mayoría de las distribuciones.

La respuesta es afirma sin prueba, y parece implicar que la PCA produce componentes independientes si los datos es normal multivariante.

Específicamente, decir que nuestros datos son muestras de:

$$\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$$

ponemos a $n$ muestras de $\mathbf{x}$ en las filas de nuestra matriz de muestras $\mathbf{X}$, lo $\mathbf{X}$$n \times m$. El cómputo de la SVD de a $\mathbf{X}$ (después de centrado) los rendimientos

$$\mathbf{X} = \mathbf{USV}^{T}$$

Podemos decir que las columnas de a $\mathbf{U}$ son estadísticamente independientes, también, a continuación, las filas de $\mathbf{V}^T$? Esto es cierto en general, sólo por $\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$, o no es cierto?

24voto

zowens Puntos 1417

Voy a empezar con una interfaz intuitiva de demostración.

Me generaron $n=100$ observaciones (a) de una fuerza no-Gaussiana 2D de distribución, y (b) a partir de una distribución Gaussiana 2D. En ambos casos he centrado en los datos y realiza la descomposición de valor singular $\mathbf X=\mathbf{USV}^\top$. A continuación, para cada caso he hecho un gráfico de dispersión de las dos primeras columnas de a $\mathbf U$, el uno contra el otro. Tenga en cuenta que normalmente las columnas de a $\mathbf{US}$ que se denominan "componentes principales" (PCs); columnas de $\mathbf U$ son PCs escala para tener la unidad de la norma; sin embargo, en esta respuesta que me estoy centrando en las columnas de $\mathbf U$. Aquí están la dispersión de las parcelas:

PCA of Gaussian and non-Gaussian data

Creo que declaraciones como "PCA componentes no están correlacionados" o "PCA componentes son dependientes/independientes" se hacen generalmente sobre una muestra específica de la matriz $\mathbf X$ y se refieren a las correlaciones/dependencias a través de las filas (ver, por ejemplo, @ttnphns responde aquí). PCA de los rendimientos de una transformación de matriz de datos $\mathbf U$, donde las filas son las observaciones y las columnas son de PC variables. I. e. podemos ver $\mathbf U$ como una muestra, y preguntar cuál es el ejemplo de la correlación entre el PC variables. Este ejemplo de matriz de correlación es de curso dado por $\mathbf U^\top \mathbf U=\mathbf I$, lo que significa que la muestra las correlaciones entre el PC variables son cero. Esto es lo que la gente quiere decir cuando dicen que "el PCA diagonalizes la matriz de covarianza", etc.

Conclusión 1: en la PCA de coordenadas, los datos tienen una correlación cero.

Esto es cierto para los dos diagramas de dispersión de arriba. Sin embargo, es obvio que el PC de dos variables $x$ $y$ a la izquierda (no-Gaussiano) diagrama de dispersión no son independientes; aunque tienen una correlación cero, que son fuertemente dependientes y, de hecho, relacionados por una $y\approx a(x-b)^2$. Y de hecho, es bien sabido que la correlación no significa independiente.

Por el contrario, el PC de dos variables $x$ $y$ a la derecha (Gauss) diagrama de dispersión parecen ser "bastante independiente". Cómputo recíproco de información entre ellos (que es una medida estadística de la dependencia: variables independientes tienen cero de información mutua) por cualquier algoritmo estándar producirá un valor muy cercano a cero. No va a ser exactamente cero, porque nunca es exactamente cero para cualquier finita, el tamaño de la muestra (menos de sintonía fina); por otra parte, existen varios métodos para calcular la información mutua de dos muestras, dando ligeramente diferentes respuestas. Pero podemos esperar que cualquier método de obtener una estimación de la información mutua que es muy cercano a cero.

Conclusión 2: en el PCA coordenadas Gauss datos son "bastante independiente", lo que significa que el estándar de las estimaciones de la dependencia será de alrededor de cero.

La cuestión, sin embargo, es más complicado, como se muestra por la larga cadena de comentarios. De hecho, @whuber señala con razón que la PCA de las variables de $x$ $y$ (columnas de $\mathbf U$) debe ser estadísticamente dependientes: las columnas tienen que ser de unidad de longitud y tienen que ser ortogonales, y esto introduce una dependencia. E. g. si algún valor en la primera columna es igual a $1$, entonces el valor correspondiente en la segunda columna debe ser $0$.

Esto es cierto, pero sólo es relevante en la práctica de muy pequeño $n$, como por ejemplo, $n=3$ ($n=2$ después de centrado sólo hay un PC). Para cualquier razonable del tamaño de la muestra, tales como $n=100$ que aparece en mi figura anterior, el efecto de la dependencia será insignificante; las columnas de a $\mathbf U$ (a escala), las proyecciones de Gauss de datos, por lo que son también de Gauss, lo que hace que sea prácticamente imposible para un valor de cerca de $1$ (esto requeriría que todos los otros $n-1$ elementos para estar cerca de $0$, lo cual no es una distribución de Gauss).

Conclusión 3: estrictamente hablando, para cualquier finito $n$, Gaussiano de datos en el PCA coordenadas son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier $n\gg 1$.

Podemos hacer este preciso considerando lo que ocurre en el límite de $n \to \infty$. En el límite de lo infinito tamaño de la muestra, la muestra de la matriz de covarianza es igual a la población de la matriz de covarianza $\mathbf \Sigma$. Así que si el vector de datos $X$ es muestreada de $\vec X \sim \mathcal N(0,\boldsymbol \Sigma)$, entonces la PC variables $\vec Y = \Lambda^{-1/2}V^\top \vec X/(n-1)$ (donde $\Lambda$ $V$ son los autovalores y autovectores de a $\boldsymbol \Sigma$) y $\vec Y \sim \mathcal N(0, \mathbf I/(n-1))$. I. e. PC variables provienen de un multivariante de Gauss con diagonal de la covarianza. Pero cualquier multivariante de Gauss con la diagonal de la matriz de covarianza se descompone en un producto de univariante Gaussianas, y esta es la definición de independencia estadística:

\begin{align} \mathcal N(\mathbf 0,\mathrm{diag}(\sigma^2_i)) &= \frac{1}{(2\pi)^{k/2} \det(\mathrm{diag}(\sigma^2_i))^{1/2}} \exp\left[-\mathbf x^\top \mathrm{diag}(\sigma^2_i) \mathbf x/2\right]\\&=\frac{1}{(2\pi)^{k/2} (\prod_{i=1}^k \sigma_i^2)^{1/2}} \exp\left[-\sum_{i=1}^k \sigma^2_i x_i^2/2\right] \\&=\prod\frac{1}{(2\pi)^{1/2}\sigma_i} \exp\left[-\sigma_i^2 x^2_i/2\right] \\&= \prod \mathcal N(0,\sigma^2_i). \end{align}

Conclusión 4: asintóticamente ($n \to \infty$) PC variables de Gauss datos son estadísticamente independientes como variables aleatorias, y muestra la información mutua dará a la población de valor cero.

Debo señalar que es posible entender esta pregunta de manera diferente (véanse los comentarios de @whuber): considerar la totalidad de la matriz de $\mathbf U$ una variable aleatoria (obtenido a partir de la matriz de $\mathbf X$ a través de una operación específica) y preguntar si cualquiera de los dos elementos específicos de $U_{ij}$ $U_{kl}$ a partir de dos diferentes columnas son estadísticamente independientes a través de los diferentes sorteos de $\mathbf X$. Hemos estudiado esta cuestión en esta tarde hilo.


Aquí están los cuatro conclusiones provisionales de arriba:

  • En la PCA de coordenadas, los datos tienen una correlación cero.
  • En la PCA de coordenadas Gauss datos son "bastante independiente", lo que significa que el estándar de las estimaciones de la dependencia será de alrededor de cero.
  • Estrictamente hablando, para cualquier finito $n$, Gaussiano de datos en el PCA coordenadas son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier $n\gg 1$.
  • Asintóticamente ($n \to \infty$) PC variables de Gauss datos son estadísticamente independientes como variables aleatorias, y muestra la información mutua dará a la población de valor cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X