3 votos

plano pca y su distancia a los datos

Está claro que la primera componente principal es el vector más cercano a los datos, pero ¿puede alguien demostrar por qué las dos primeras componentes principales abarcan un plano que es el más cercano a los datos?

0 votos

No creo que lo más cercano a los datos sea correcto.

2 votos

Compruebe el teorema de Mirsky-Eckart-Young es.wikipedia.org/wiki/

1voto

kjetil b halvorsen Puntos 7012

La primera PC (PC1) es la combinación lineal que maximiza la varianza. Si se sustituyen los puntos de datos por la PC1, ésta es la más cercana a los datos en el sentido de que minimiza la norma (euclidiana) del residuo. Ahora, PC2 maximiza la varianza entre todas las combinaciones lineales ortogonales a PC1.

Si se vuelven a sustituir los puntos de datos por (PC1, PC2), éste es el plano más cercano al enjambre de puntos en el sentido de minimizar la norma euclidiana del vector residual. Véase Comprensión geométrica del ACP en el espacio (dual) del sujeto

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X