9 votos

Relación entre los vectores propios de $\frac{1}{N}XX^\top$ y $\frac{1}{N}X^\top X$ en el contexto del PCA

En el libro de Christopher Bishop Reconocimiento de patrones y aprendizaje automático La sección sobre el ACP contiene lo siguiente:

Dada una matriz de datos centrada $\mathbf{X}$ con matriz de covarianza $N^{-1}\mathbf{X}^T\mathbf{X}$ la ecuación del vector propio es:

$$N^{-1}\mathbf{X}^T\mathbf{X} \mathbf{u}_i = \lambda_i \mathbf{u}_i.$$

Definición de $\mathbf{v}_i = \mathbf{X} \mathbf{u}_i$ El obispo afirma que si $\mathbf{u}_i$ y $\mathbf{v}_i$ tienen una longitud unitaria, entonces:

$$\mathbf{u}_i = \frac{1}{(N\lambda_i)^{\frac{1}{2}}}\mathbf{X}^T\mathbf{v}_i.$$

¿De dónde viene la raíz cuadrada?


EDITAR:

En particular, ¿por qué no es válido lo siguiente?

$\frac{1}{N}\mathbf{X}^T\mathbf{X}\mathbf{u}_i = \lambda \mathbf{u}_i$

$\Rightarrow \frac{1}{N}\mathbf{X}^T \mathbf{v}_i = \lambda \mathbf{u}_i$ utilizando $\mathbf{v}_i = \mathbf{Xu}_i$

$\Rightarrow \frac{1}{N\lambda_i}\mathbf{X}^T \mathbf{v}_i = \mathbf{u}_i$

El mismo resultado, pero sin la raíz cuadrada.

20voto

zowens Puntos 1417

Esto se refiere a la breve sección 12.1.4 PCA para datos de alta dimensión en el libro de Bishop. Puedo ver que esta sección puede ser un poco confusa, porque Bishop va de un lado a otro entre $\newcommand{\X}{\mathbf X}\newcommand{\v}{\mathbf v}\newcommand{\u}{\mathbf u}\v_i$ y $\u_i$ utilizando una notación ligeramente incoherente.

La sección trata de la relación entre los vectores propios de la matriz de covarianza $\frac{1}{N}\X^\top \X$ y los vectores propios de la matriz de Gram $\frac{1}{N}\X \X^\top$ (en el contexto del PCA). Sea $\v_i$ sea un vector propio de longitud unitaria de $\frac{1}{N}\X \X^\top$ :

$$\frac{1}{N}\X \X^\top \v_i = \lambda_i \v_i.$$

Si multiplicamos esta ecuación por $\X^\top$ desde la izquierda:

$$\frac{1}{N}\X^\top \X (\X^\top \v_i) = \lambda_i (\X^\top \v_i),$$

vemos que $\X^\top \v_i$ es un vector propio de $\frac{1}{N}\X^\top \X$ .

Sin embargo, ¡no tendrá una longitud unitaria! En efecto, calculemos su longitud: $$\|\X^\top \v_i\|^2=(\X^\top \v_i)^\top \X^\top \v_i = \v_i^\top \X\X^\top \v_i=\v_i(N\lambda v_i)=N\lambda\|\v_i\|^2=N\lambda_i.$$ Así que la longitud al cuadrado de $\X^\top \v_i$ es igual a $N\lambda_i$ . Por lo tanto, si queremos transformar $\v_i$ en un vector propio de la matriz de covarianza de longitud unitaria $\u_i$ necesitamos normalizarla con una longitud unitaria: $$\u_i = \frac{1}{(N\lambda_i)^{1/2}}\X^\top \v_i.$$

(Tenga en cuenta que lo anterior no fue utilizando $\v_i=\X\u_i$ definición que ha citado. En su lugar, empezamos directamente con una longitud unitaria $\v_i$ . Creo que esto podría haber sido la fuente de su confusión. El obispo utiliza $\v_i=\X\u_i$ definición anterior en la sección, pero ya no es relevante para este argumento en particular).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X