Estoy aprendiendo el Análisis de Componentes Principales (ACP) y llegué a saber que los vectores propios de la matriz de covarianza de los datos son los componentes principales, que maximizan la varianza de los datos proyectados. Entiendo la intuición detrás de por qué necesitamos la varianza de los datos proyectados tan grande como sea posible.
Desde este respuesta, no entiendo la siguiente línea:
El vector unitario $u$ que maximiza la varianza $u^Tu$ no es más que el vector propio con el mayor valor propio.
Sé cómo es la varianza de los puntos de datos proyectados $u^Tu$ de este respuesta. Pero no entiendo por qué esto será máximo cuando $u$ se selecciona como vectores propios de $u^Tu$ con los valores propios más altos?
Intuitivamente veo los vectores propios como los vectores que permanecen fijos en su dirección bajo la transformación lineal dada (los valores pueden escalar, lo que se conoce como valores propios). Fuente: Esta respuesta. y este vídeo.
No puedo relacionar por qué los vectores con una dirección fija bajo una transformación lineal dada dan la mayor varianza? ¡Cualquier explicación intuitiva será de ayuda! Gracias.