Voy a empezar con una interfaz intuitiva de demostración.
Me generaron $n=100$ observaciones (a) de una fuerza no-Gaussiana 2D de distribución, y (b) a partir de una distribución Gaussiana 2D. En ambos casos he centrado en los datos y realiza la descomposición de valor singular $\mathbf X=\mathbf{USV}^\top$. A continuación, para cada caso he hecho un gráfico de dispersión de las dos primeras columnas de a $\mathbf U$, el uno contra el otro. Tenga en cuenta que normalmente las columnas de a $\mathbf{US}$ que se denominan "componentes principales" (PCs); columnas de $\mathbf U$ son PCs escala para tener la unidad de la norma; sin embargo, en esta respuesta que me estoy centrando en las columnas de $\mathbf U$. Aquí están la dispersión de las parcelas:
Creo que declaraciones como "PCA componentes no están correlacionados" o "PCA componentes son dependientes/independientes" se hacen generalmente sobre una muestra específica de la matriz $\mathbf X$ y se refieren a las correlaciones/dependencias a través de las filas (ver, por ejemplo, @ttnphns responde aquí). PCA de los rendimientos de una transformación de matriz de datos $\mathbf U$, donde las filas son las observaciones y las columnas son de PC variables. I. e. podemos ver $\mathbf U$ como una muestra, y preguntar cuál es el ejemplo de la correlación entre el PC variables. Este ejemplo de matriz de correlación es de curso dado por $\mathbf U^\top \mathbf U=\mathbf I$, lo que significa que la muestra las correlaciones entre el PC variables son cero. Esto es lo que la gente quiere decir cuando dicen que "el PCA diagonalizes la matriz de covarianza", etc.
Conclusión 1: en la PCA de coordenadas, los datos tienen una correlación cero.
Esto es cierto para los dos diagramas de dispersión de arriba. Sin embargo, es obvio que el PC de dos variables $x$ $y$ a la izquierda (no-Gaussiano) diagrama de dispersión no son independientes; aunque tienen una correlación cero, que son fuertemente dependientes y, de hecho, relacionados por una $y\approx a(x-b)^2$. Y de hecho, es bien sabido que la correlación no significa independiente.
Por el contrario, el PC de dos variables $x$ $y$ a la derecha (Gauss) diagrama de dispersión parecen ser "bastante independiente". Cómputo recíproco de información entre ellos (que es una medida estadística de la dependencia: variables independientes tienen cero de información mutua) por cualquier algoritmo estándar producirá un valor muy cercano a cero. No va a ser exactamente cero, porque nunca es exactamente cero para cualquier finita, el tamaño de la muestra (menos de sintonía fina); por otra parte, existen varios métodos para calcular la información mutua de dos muestras, dando ligeramente diferentes respuestas. Pero podemos esperar que cualquier método de obtener una estimación de la información mutua que es muy cercano a cero.
Conclusión 2: en el PCA coordenadas Gauss datos son "bastante independiente", lo que significa que el estándar de las estimaciones de la dependencia será de alrededor de cero.
La cuestión, sin embargo, es más complicado, como se muestra por la larga cadena de comentarios. De hecho, @whuber señala con razón que la PCA de las variables de $x$ $y$ (columnas de $\mathbf U$) debe ser estadísticamente dependientes: las columnas tienen que ser de unidad de longitud y tienen que ser ortogonales, y esto introduce una dependencia. E. g. si algún valor en la primera columna es igual a $1$, entonces el valor correspondiente en la segunda columna debe ser $0$.
Esto es cierto, pero sólo es relevante en la práctica de muy pequeño $n$, como por ejemplo, $n=3$ ($n=2$ después de centrado sólo hay un PC). Para cualquier razonable del tamaño de la muestra, tales como $n=100$ que aparece en mi figura anterior, el efecto de la dependencia será insignificante; las columnas de a $\mathbf U$ (a escala), las proyecciones de Gauss de datos, por lo que son también de Gauss, lo que hace que sea prácticamente imposible para un valor de cerca de $1$ (esto requeriría que todos los otros $n-1$ elementos para estar cerca de $0$, lo cual no es una distribución de Gauss).
Conclusión 3: estrictamente hablando, para cualquier finito $n$, Gaussiano de datos en el PCA coordenadas son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier $n\gg 1$.
Podemos hacer este preciso considerando lo que ocurre en el límite de $n \to \infty$. En el límite de lo infinito tamaño de la muestra, la muestra de la matriz de covarianza es igual a la población de la matriz de covarianza $\mathbf \Sigma$. Así que si el vector de datos $X$ es muestreada de $\vec X \sim \mathcal N(0,\boldsymbol \Sigma)$, entonces la PC variables $\vec Y = \Lambda^{-1/2}V^\top \vec X/(n-1)$ (donde $\Lambda$ $V$ son los autovalores y autovectores de a $\boldsymbol \Sigma$) y $\vec Y \sim \mathcal N(0, \mathbf I/(n-1))$. I. e. PC variables provienen de un multivariante de Gauss con diagonal de la covarianza. Pero cualquier multivariante de Gauss con la diagonal de la matriz de covarianza se descompone en un producto de univariante Gaussianas, y esta es la definición de independencia estadística:
\begin{align}
\mathcal N(\mathbf 0,\mathrm{diag}(\sigma^2_i)) &= \frac{1}{(2\pi)^{k/2} \det(\mathrm{diag}(\sigma^2_i))^{1/2}} \exp\left[-\mathbf x^\top \mathrm{diag}(\sigma^2_i) \mathbf x/2\right]\\&=\frac{1}{(2\pi)^{k/2} (\prod_{i=1}^k \sigma_i^2)^{1/2}} \exp\left[-\sum_{i=1}^k \sigma^2_i x_i^2/2\right]
\\&=\prod\frac{1}{(2\pi)^{1/2}\sigma_i} \exp\left[-\sigma_i^2 x^2_i/2\right]
\\&= \prod \mathcal N(0,\sigma^2_i).
\end{align}
Conclusión 4: asintóticamente ($n \to \infty$) PC variables de Gauss datos son estadísticamente independientes como variables aleatorias, y muestra la información mutua dará a la población de valor cero.
Debo señalar que es posible entender esta pregunta de manera diferente (véanse los comentarios de @whuber): considerar la totalidad de la matriz de $\mathbf U$ una variable aleatoria (obtenido a partir de la matriz de $\mathbf X$ a través de una operación específica) y preguntar si cualquiera de los dos elementos específicos de $U_{ij}$ $U_{kl}$ a partir de dos diferentes columnas son estadísticamente independientes a través de los diferentes sorteos de $\mathbf X$. Hemos estudiado esta cuestión en esta tarde hilo.
Aquí están los cuatro conclusiones provisionales de arriba:
- En la PCA de coordenadas, los datos tienen una correlación cero.
- En la PCA de coordenadas Gauss datos son "bastante independiente", lo que significa que el estándar de las estimaciones de la dependencia será de alrededor de cero.
- Estrictamente hablando, para cualquier finito $n$, Gaussiano de datos en el PCA coordenadas son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier $n\gg 1$.
- Asintóticamente ($n \to \infty$) PC variables de Gauss datos son estadísticamente independientes como variables aleatorias, y muestra la información mutua dará a la población de valor cero.