Está claro que la primera componente principal es el vector más cercano a los datos, pero ¿puede alguien demostrar por qué las dos primeras componentes principales abarcan un plano que es el más cercano a los datos?
Respuesta
¿Demasiados anuncios?La primera PC (PC1) es la combinación lineal que maximiza la varianza. Si se sustituyen los puntos de datos por la PC1, ésta es la más cercana a los datos en el sentido de que minimiza la norma (euclidiana) del residuo. Ahora, PC2 maximiza la varianza entre todas las combinaciones lineales ortogonales a PC1.
Si se vuelven a sustituir los puntos de datos por (PC1, PC2), éste es el plano más cercano al enjambre de puntos en el sentido de minimizar la norma euclidiana del vector residual. Véase Comprensión geométrica del ACP en el espacio (dual) del sujeto
0 votos
No creo que lo más cercano a los datos sea correcto.
2 votos
Compruebe el teorema de Mirsky-Eckart-Young es.wikipedia.org/wiki/