He estado leyendo sobre el Análisis de Componentes Principales, y creo que en general se trata de extraer la mayor cantidad de "varianza" de los predictores $ \vec{X} = (X_1, X_2, ..., X_n)$ seleccionando un vector de carga óptimo $\vec{\phi} = (\phi_1, ..., \phi_n)$ tal que
$$Z_1 = \vec{X}^T \vec{\phi} = \phi_1 X_1 + \cdots + \phi_n X_n $$
tiene la máxima varianza. Queremos la máxima varianza porque (normalmente), la varianza de los predictores puede explicar potencialmente la varianza de alguna respuesta $Y$ que podrían analizarse en el futuro.
Sin embargo, he oído que debe estandarizar los predictores (por ejemplo, para que tengan media 0 y varianza 1) si no están en las mismas unidades, y también restringir el vector de carga de manera que $\|\phi\|=1$ . Esto es para que la varianza de cualquier predictor no sea arbitrariamente grande.
Pero después de estandarizar, si todos los predictores tienen varianza 1, ¿cómo va a identificar el análisis de componentes principales los predictores más "explicativos" (los que tienen alta varianza) si ahora son todos iguales?
(¿Cómo vamos a elegir un vector de carga y ponderar los predictores si todos ellos tienen la misma varianza?)
Gracias de antemano