Depende de la verdadera estructura de covarianza de la población. Si varias características tienen la misma varianza poblacional, la varianza de muestreo puede mezclar arbitrariamente las características observadas, mientras que si todas las características tienen varianzas poblacionales diferentes esto no puede ocurrir.
Permítanme mostrar esto a través de una derivación. Supongamos que la verdadera matriz de covarianza de la población es $A$ y su observado es $A + \epsilon B$ , donde $\epsilon$ es un número positivo pequeño. Básicamente, se puede pensar en $B$ como la dirección en la que se perturba la matriz de covarianza (perturbación significa "error" debido al muestreo), y $\epsilon$ es la magnitud de esa perturbación.
Recuerde que el PCA consiste básicamente en observar los vectores propios de la matriz de covarianza. Si la verdadera covarianza es $A = aI$ los vectores propios de $A + \epsilon B$ son sólo vectores propios $v$ de $B$ . En otras palabras, si se ejecuta el ACP en los datos observados, se obtendrán características determinadas totalmente por la variación del muestreo.
La razón por la que esto sucede es que el PCA no tiene una solución única para su verdadera matriz de covarianza en primer lugar. Es decir, cada vez que se intenta diagonalizar una matriz con valores propios duplicados, se tropieza con el problema de que hay múltiples formas válidas de elegir vectores propios unitarios (porque se tienen espacios propios que tienen dimensión mayor que uno). Por lo tanto, incluso si $A$ no es de la forma $aI$ pero tiene valores propios duplicados, habrá algún conjunto de vectores propios de $A + \epsilon B$ que se desviará de las características originales de una manera dictada totalmente por los vectores propios de $B$ .
Afortunadamente, en la realidad es raro encontrar variables con exactamente la misma varianza poblacional. En este caso, podemos demostrar que las características son robustas frente a la variación del muestreo. En realidad, esto es cierto en general (es decir, independientemente de la suposición de que las variables de la población no están correlacionadas).
Para ver esto, podemos simplemente aproximar los vectores propios de $(A + \epsilon B)$ bajo algunos supuestos suaves. Básicamente queremos demostrar que son sólo una perturbación de los vectores propios de $A$ por un término que escala de forma aproximadamente lineal con $\epsilon$ .
La primera suposición es, por supuesto, que todos los valores propios de $A$ son únicos. Sin embargo, en segundo lugar, tenemos que suponer que los eigenspaces de $A$ y $B$ son disjuntos, lo que significa que tienen diferentes vectores propios. De nuevo podemos apelar a la realidad: una matriz aleatoria casi nunca tendrá los mismos vectores propios que una matriz fija (a menos que esa matriz fija sea un múltiplo de $I$ ).
Aviso de que esta "prueba" es muy larga y además no es exactamente válida. El principal punto débil es que asumo que la solución es analítica, que es lo que realmente queremos demostrar. En cualquier caso, espero que proporcione alguna idea.
[inicio de la prueba]
Dejemos que $u$ denotan el $i^{th}$ vector propio de $A$ para algunos $i$ y tienen un valor propio $\alpha$ . Podemos escribir arbitrariamente el vector propio de $(A + \epsilon B)$ como $(u+v)$ para algunos $v$ tomando un vector propio de la matriz y dejando que $v$ sea ese vector propio menos $u$ .
Ahora, ¿qué es $(A + \epsilon B)(u+v)$ ? Debería ser $\lambda (u + v)$ para algunos $\lambda$ . Para simplificar, podemos reescribir esto como $(\alpha + \epsilon \gamma)(u+v)$ para $\gamma = \epsilon^{-1}(\lambda - \alpha)$ . Esto tiene sentido porque los valores propios son una función continua de las entradas de la matriz, lo que se puede demostrar utilizando que el determinante es una función continua (ya que es un polinomio) y luego utilizando que los valores propios se definen utilizando el determinante.
Por otro lado, también tenemos $$ (A + \epsilon B)(u+v) = Au + Av + \epsilon B (u+v) = \alpha u + Av + \epsilon B (u+v). $$ Así, \begin{align*} (A + \epsilon B)(u+v) &= (\alpha + \epsilon \gamma)(u+v) = \alpha u + \epsilon \gamma u + \alpha v + \epsilon \gamma v \\ Av + eBu + eBv &= \epsilon \gamma u + (a + \epsilon \gamma)v \\ \epsilon B u + (A + \epsilon B)v &= \epsilon \gamma u + (\alpha + \epsilon \gamma)v \\ \epsilon(B - \gamma I)u + ((A - \alpha I) + \epsilon (B - \gamma I))v &= 0 \end{align*}
Ahora, hay dos formas posibles de que esta ecuación se mantenga. Una implica tener $(A - \alpha I)v = 0$ . Sin embargo, esto significaría que $v$ es un vector propio de $A$ con valor propio $\alpha$ y, por lo tanto, también lo es $u+v$ . El problema con esto es que implicaría que $(u+v)$ es un vector propio de $B$ también, y por suposición $B$ no puede compartir vectores propios con $A$ . Por lo tanto, ciertamente $(A - \alpha I)v$ es distinto de cero.
Sin embargo, mirando la ecuación, el $(A - \alpha I)v$ es el único término que no parece proporcional a $\epsilon$ . ¿Por qué es interesante? Bueno, porque si no dependiera de $\epsilon$ en absoluto, la ecuación no podría tener una solución - ya que $\epsilon$ es esencialmente arbitraria, tomando el límite como $\epsilon \to 0$ crearía una ecuación incoherente. La solución consiste en reconocer que $v$ depende de $\epsilon$ y realmente debe ser al menos proporcional. Más precisamente, debe ser $$ v = w_{0} + \epsilon w_{1} + \epsilon^{2} w_{2} + (\mathrm{higher \ order \ terms}). $$ Estoy haciendo una suposición audaz de que $v$ es esencialmente analítica en $\epsilon$ pero como básicamente estamos resolviendo una ecuación polinómica ( $\gamma$ también es analítica en $\epsilon$ ), parece razonable. De todos modos, aquí es donde entra la aproximación.
Ahora bien, hay que tener en cuenta que el $w_{0}$ debe ser cero, ya que como $\epsilon \to 0$ Debemos tener $u+v \to u$ . Básicamente, si $\epsilon$ es bastante pequeño, entonces $v \approx \epsilon w$ . Además, \begin{align*} \epsilon(B - \gamma I)u + ((A - \alpha I) + \epsilon (B - \gamma I))v &= \epsilon(B - \gamma I)u + ((A - \alpha I) + \epsilon (B - \gamma I))\epsilon w \\ &= \epsilon(B - \gamma I)u + \epsilon (A - \alpha I) w + \epsilon^{2} (B - \gamma I) w \\ &\approx \epsilon (B - \gamma I)u + \epsilon (A - \alpha I) \end{align*} porque $\epsilon^{2} \approx 0$ .
Por lo tanto, dividiendo por $\epsilon$ al final sólo estamos resolviendo $$ (B - \gamma I)u + (A - \alpha I) w = 0 $$ o realmente $$ (B - \gamma I)u = -(A - \alpha I) w. $$ Ahora, $-(A - \alpha I) w$ es un vector desconocido en el espacio de columnas de $(A - \alpha I)$ . Conocer esto permite resolver para $\gamma$ . Una vez hecho esto, el término $(B - \gamma I)u$ se convierte en un vector conocido y sólo estamos resolviendo una ecuación lineal.
El valor de $\gamma$ es único porque el espacio de columnas de $(A - \alpha I)$ tiene una dimensión menor que el espacio completo. En otras palabras, es "difícil" obtener la imagen de $u$ exactamente en el subespacio, así que sólo hay una manera de hacerlo. Sin embargo, la solución para $w$ no es único, en el sentido de que $(\alpha I - A)w = y$ no tiene una solución única ( $y = (B - \gamma I)u$ ), con la razón de que $(\alpha I - A)$ tiene un espacio nulo no trivial, que contiene en particular los vectores propios de $A$ con el vector propio $\alpha$ . Sin embargo, podemos elegir el vector $w$ resolver nuestra ecuación lineal que viola mínimamente la ecuación que realmente queríamos resolver. En otras palabras, podemos elegirlo de manera que la norma de $(B - \gamma I)w$ es mínima. Esto es único.
[fin de la prueba]
Bien, ¿qué hemos demostrado con todo esto? Básicamente, para los pequeños $\epsilon$ es posible obtener una aproximación única a los vectores propios de $(A + \epsilon B)$ que tiene un "error" mínimo. Estos vectores propios se perturban a partir de los vectores propios de $A$ por una pequeña cantidad que es proporcional a $\epsilon$ . Por lo tanto, siempre que las características de la población real sean elegidas de forma única por el ACP (es decir, que tengan varianzas poblacionales distintas), las características de los datos observados también pueden ser elegidas de forma única por el ACP y están perturbadas respecto a las características reales por una cantidad aproximadamente proporcional al tamaño del error de muestreo (¡suponiendo que el error de muestreo sea pequeño!).