Considera lo que hace el PCA. En pocas palabras, PCA (como se ejecuta más típicamente) crea un nuevo sistema de coordenadas por:
- desplazando el origen al centro de sus datos,
- aprieta y/o estira los ejes para que tengan la misma longitud, y
- gira sus ejes en una nueva orientación.
(Para más detalles, consulte este excelente hilo sobre el CV: El análisis de componentes principales, los vectores propios y los valores propios .) Sin embargo, no gira sus ejes de cualquier manera. Su nuevo $X_1$ (el primer componente principal) está orientado en la dirección de máxima variación de sus datos. El segundo componente principal se orienta en la dirección de la siguiente mayor variación que es ortogonal al primer componente principal . Los demás componentes principales se forman de la misma manera.
Teniendo esto en cuenta, vamos a examinar El ejemplo de @amoeba . Esta es una matriz de datos con dos puntos en un espacio tridimensional:
$$ X = \bigg[ \begin{array}{ccc} 1 &1 &1 \\ 2 &2 &2 \end{array} \bigg] $$ Veamos estos puntos en un (pseudo) gráfico de dispersión tridimensional:
Así que vamos a seguir los pasos indicados anteriormente. (1) El origen del nuevo sistema de coordenadas se situará en $(1.5, 1.5, 1.5)$ . (2) Los ejes ya son iguales. (3) El primer componente principal irá en diagonal desde $(0,0,0)$ à $(3,3,3)$ , que es la dirección de mayor variación para estos datos. Ahora, el segundo componente principal debe ser ortogonal al primero, y debe ir en la dirección de la mayor restante variación. Pero, ¿en qué dirección es? ¿Es de $(0,0,3)$ à $(3,3,0)$ o de $(0,3,0)$ à $(3,0,3)$ ¿o algo más? No hay variación restante, por lo que no puede haber más componentes principales .
Con $N=2$ datos, podemos ajustar (como máximo) $N-1 = 1$ componentes principales.