31 votos

¿Por qué sólo hay $n-1$ componentes principales para $n$ datos si el número de dimensiones es $\ge n$ ?

En PCA, cuando el número de dimensiones $d$ es mayor (o incluso igual) que el número de muestras $N$ por qué es que usted tendrá como máximo $N-1$ ¿vectores propios no nulos? En otras palabras, el rango de la matriz de covarianza entre los $d\ge N$ dimensiones es $N-1$ .

Ejemplo: Sus muestras son imágenes vectorizadas, que son de dimensión $d = 640\times480 = 307\,200$ , pero sólo tienes $N=10$ imágenes.

33voto

Sean Hanley Puntos 2428

Considera lo que hace el PCA. En pocas palabras, PCA (como se ejecuta más típicamente) crea un nuevo sistema de coordenadas por:

  1. desplazando el origen al centro de sus datos,
  2. aprieta y/o estira los ejes para que tengan la misma longitud, y
  3. gira sus ejes en una nueva orientación.

(Para más detalles, consulte este excelente hilo sobre el CV: El análisis de componentes principales, los vectores propios y los valores propios .) Sin embargo, no gira sus ejes de cualquier manera. Su nuevo $X_1$ (el primer componente principal) está orientado en la dirección de máxima variación de sus datos. El segundo componente principal se orienta en la dirección de la siguiente mayor variación que es ortogonal al primer componente principal . Los demás componentes principales se forman de la misma manera.

Teniendo esto en cuenta, vamos a examinar El ejemplo de @amoeba . Esta es una matriz de datos con dos puntos en un espacio tridimensional:
$$ X = \bigg[ \begin{array}{ccc} 1 &1 &1 \\ 2 &2 &2 \end{array} \bigg] $$ Veamos estos puntos en un (pseudo) gráfico de dispersión tridimensional:

enter image description here

Así que vamos a seguir los pasos indicados anteriormente. (1) El origen del nuevo sistema de coordenadas se situará en $(1.5, 1.5, 1.5)$ . (2) Los ejes ya son iguales. (3) El primer componente principal irá en diagonal desde $(0,0,0)$ à $(3,3,3)$ , que es la dirección de mayor variación para estos datos. Ahora, el segundo componente principal debe ser ortogonal al primero, y debe ir en la dirección de la mayor restante variación. Pero, ¿en qué dirección es? ¿Es de $(0,0,3)$ à $(3,3,0)$ o de $(0,3,0)$ à $(3,0,3)$ ¿o algo más? No hay variación restante, por lo que no puede haber más componentes principales .

Con $N=2$ datos, podemos ajustar (como máximo) $N-1 = 1$ componentes principales.

9voto

user242987 Puntos 13

Digamos que tenemos una matriz $X=[x_1, x_2, \cdots, x_n]$ donde cada $x_i$ es una obervación (muestra) de $d$ espacio de dimensión, por lo que $X$ es un $d$ por $n$ matriz, y $d > n$ .

Si primero centramos el conjunto de datos tenemos $\sum\limits_{i=1}^n x_i = 0$ lo que significa: $x_1=-\sum\limits_{i=2}^n x_i$ por lo que el rango de columna de $X \leq n-1$ entonces $rank(X)\leq n-1$ .

Sabemos que $rank(XX^T)=rank(X)\leq n-1$ Así que $XX^T$ tiene como máximo $n-1$ valores propios no nulos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X