84 votos

¿Cuál es una explicación intuitiva de cómo la PCA pasa de un problema geométrico (con distancias) a un problema de álgebra lineal (con vectores propios)?

He leído mucho acerca de la PCA, incluyendo varios tutoriales y preguntas (como este, estey este).

El problema geométrico de la PCA está tratando de optimizar para mí está claro: PCA intenta encontrar el primer componente principal mediante la minimización de la reconstrucción (proyección) de error, que al mismo tiempo maximiza la varianza de los datos proyectados.

enter image description here

Cuando leí por primera vez que, inmediatamente pensé en algo como la regresión lineal; tal vez se puede resolver utilizando el gradiente de la pendiente, si es necesario.

Sin embargo, mi mente estaba quemado cuando leí que el problema de optimización se resuelve mediante el uso de álgebra lineal y encontrar los vectores propios y valores propios. Simplemente no entiendo cómo este uso de álgebra lineal entra en juego.

Así que mi pregunta es: ¿Cómo puede PCA de un problema de optimización geométrica a un problema de álgebra lineal? Alguien puede proporcionar una explicación intuitiva?

Yo no estoy en busca de una respuesta como esta uno que dice: "Cuando usted resolver el problema matemático de la PCA, que termina siendo equivalente a encontrar los autovalores y autovectores de la matriz de covarianza." Por favor explique por qué los vectores propios vienen a ser el de componentes principales y por qué los autovalores vienen a ser la varianza de los datos proyectados en ellos

Soy un ingeniero de software y no un matemático, por el camino.

5voto

Joeri Sebrechts Puntos 7483

Hay un resultado a partir de 1936, por Eckart y Jóvenes (https://ccrma.stanford.edu/~dattorro/eckart%26young.1936.pdf), que dice lo siguiente

$\sum_1^r d_k u_k v_k^T = arg min_{\hat{X} \epsilon M(r)} ||X-\hat{X}||_F^2$

donde M(r) es el conjunto de rank-r matrices, lo que significa básicamente que la primera r de los componentes de la SVD de X da lo mejor de bajo rango de la matriz de aproximación de X y lo mejor es definida en términos de el cuadrado de la norma de Frobenius - la suma de los cuadrados de los elementos de una matriz.

Este es un resultado general para matrices y a primera vista no tiene nada que ver con conjuntos de datos o de reducción de dimensionalidad.

Sin embargo, si usted no piensa en la $X$ como una matriz, sino más bien piense de las columnas de la matriz $X$ que representan los vectores de puntos de datos, a continuación, $\hat{X}$ es la aproximación con el mínimo de representación de error en términos de error cuadrático diferencias.

5voto

JanithaR Puntos 141

"lo que maximiza simultáneamente la varianza de los datos proyectados". ¿Has oído hablar de los cocientes de Rayleigh? https://en.wikipedia.org/wiki/Rayleigh_quotient , tal vez esa sea una forma de ver esto. a saber, el cociente rayleigh de la matriz de covarianza le da la varianza de los datos proyectados. (y la página wiki explica por qué los vectores propios maximizan el cociente de Rayleigh)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X