12 votos

¿Por qué los vectores propios con los valores propios más altos maximizan la varianza en el ACP?

Estoy aprendiendo el Análisis de Componentes Principales (ACP) y llegué a saber que los vectores propios de la matriz de covarianza de los datos son los componentes principales, que maximizan la varianza de los datos proyectados. Entiendo la intuición detrás de por qué necesitamos la varianza de los datos proyectados tan grande como sea posible.

Desde este respuesta, no entiendo la siguiente línea:

El vector unitario $u$ que maximiza la varianza $u^Tu$ no es más que el vector propio con el mayor valor propio.

Sé cómo es la varianza de los puntos de datos proyectados $u^Tu$ de este respuesta. Pero no entiendo por qué esto será máximo cuando $u$ se selecciona como vectores propios de $u^Tu$ con los valores propios más altos?

Intuitivamente veo los vectores propios como los vectores que permanecen fijos en su dirección bajo la transformación lineal dada (los valores pueden escalar, lo que se conoce como valores propios). Fuente: Esta respuesta. y este vídeo.

No puedo relacionar por qué los vectores con una dirección fija bajo una transformación lineal dada dan la mayor varianza? ¡Cualquier explicación intuitiva será de ayuda! Gracias.

6voto

BrianD Puntos 431

Tomemos A como la matriz original, x es el vector propio y es el valor propio correspondiente, entonces tenemos Ax=x. Hay una forma intuitiva de pensar en ello. Lo que realmente estamos comparando es la proyección de A sobre el vector propio x. Cuanto mayor sea la proyección, más varianza representará ese vector. Basándonos en esta idea, la proyección de A sobre x es Ax/|x||, que es igual a x/|x||. Como x/|x|| es el vector unitario del vector propio, sólo tenemos que comprobar . Por lo tanto, el mayor indica que el eigenvector conserva la mayor varianza.

3voto

skierpage Puntos 314

Sea la descomposición espectral de $\Sigma$ sea $\Sigma=PDP^T,$ où $P$ es ortonormal y $D$ es diagonal. Entonces $u^T\Sigma u=\displaystyle\sum_{i=1}^d\lambda_i(p_i^Tu)^2,$ où $p_i$ es el $i^{\text{th}}$ columna de $P$ En otras palabras, el $i^\text{th}$ vector propio de $\Sigma.$

Queremos encontrar $u$ tal que $\displaystyle\sum_{i=1}^d\lambda_i(p_i^Tu)^2$ se maximiza. Dado que $p_i$ forman una base ortonormal, $\displaystyle\sum_{i=1}^d(p_i^Tu)^2=1.$ Consideremos el problema de optimización: $$\text{Maximize }\displaystyle\sum_{i=1}^d\lambda_iz_i^2\text{ subject to }\sum_{i=1}^dz_i^2=1.$$ Supongamos que $\lambda_1\ge\lambda_2\ge\dots\ge\lambda_d.$ Está claro que debemos tener $z_1=1,$ $z_i=0$ para el resto, porque de lo contrario tendremos un valor inferior de la función objetivo. Eso significaría $$p_1^Tu=1,\text{ and }p_i^Tu=0\text{ for all }i\neq 1.$$ Por la igualdad en la desigualdad de Cauchy-Schwarz, $p_1^Tu=1\iff u=c\times p_1,$ para alguna constante $c.$ Por la norma $1$ restricción, $u=p_1.$

3voto

whyyes Puntos 127

Creo que las respuestas anteriores ya contienen el meollo de la cuestión, pero sólo quiero añadir el punto de vista de la probabilidad para que sea un poco más obvio lo que la pregunta está pidiendo y por qué esa es la respuesta correcta.

Supongamos que tengo algunos datos extraídos de alguna distribución $x_1,x_2,...\sim\mathcal D$ y donde $x_i\in \mathbb R^n$ . Entonces quiero encontrar alguna representación unidimensional de $x_i$ donde se maximizan los datos. Pues bien, todas las proyecciones sobre espacios unidimensionales pueden escribirse como $$ P_c(x) = c^Tx $$ para algunos $c$ où $c^Tc = 1$ .

Su pregunta es básicamente, ¿cuál es la elección de $c$ tal que la varianza $$ \mathrm{Var}(P_c(x)) = \mathbb E\left[\left(c^Tx-c^T\bar x\right)^2\right] = c^T\underbrace{(\mathbb E[xx^T] - \bar x \bar x^T)}_{=\Sigma}c $$ se maximiza, donde $\bar x = \mathbb E[x]$ .

Por lo tanto, sólo hay que encontrar el vector normalizado $c$ tal que $c^T\Sigma c$ es lo más grande posible. Esto es $c$ = el vector propio correspondiente al mayor valor propio de $\Sigma$ . Para ver esto, tome la descomposición de valores propios $\Sigma = PD P^T$ où $P = (p_1,...,p_n)$ y $D = \mathrm{diag}(d_1,...,d_n)$ . Sin pérdida de generalidad, suponemos que $d_1 \geq d_2 \geq \cdots \geq d_n$ . Entonces, tomando un cambio de variables $v = P^Tc$ podemos ver que

$$ c^T\Sigma c = \sum_{i=1}^n v_i^2 d_i \leq d_1 \underbrace{v^Tv}_{=1} $$ desde $v^Tv = c^TP^TPc=c^Tc = 1$ . Este máximo se alcanza con igualdad sólo si $v = (1,0,...)$ que corresponde a $c = p_1$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X