2 votos

¿Cómo puede PCA maximizar la varianza después de estandarizar la varianza de todos los predictores = 1?

He estado leyendo sobre el Análisis de Componentes Principales, y creo que en general se trata de extraer la mayor cantidad de "varianza" de los predictores $ \vec{X} = (X_1, X_2, ..., X_n)$ seleccionando un vector de carga óptimo $\vec{\phi} = (\phi_1, ..., \phi_n)$ tal que

$$Z_1 = \vec{X}^T \vec{\phi} = \phi_1 X_1 + \cdots + \phi_n X_n $$

tiene la máxima varianza. Queremos la máxima varianza porque (normalmente), la varianza de los predictores puede explicar potencialmente la varianza de alguna respuesta $Y$ que podrían analizarse en el futuro.

Sin embargo, he oído que debe estandarizar los predictores (por ejemplo, para que tengan media 0 y varianza 1) si no están en las mismas unidades, y también restringir el vector de carga de manera que $\|\phi\|=1$ . Esto es para que la varianza de cualquier predictor no sea arbitrariamente grande.

Pero después de estandarizar, si todos los predictores tienen varianza 1, ¿cómo va a identificar el análisis de componentes principales los predictores más "explicativos" (los que tienen alta varianza) si ahora son todos iguales?

(¿Cómo vamos a elegir un vector de carga y ponderar los predictores si todos ellos tienen la misma varianza?)

Gracias de antemano

1voto

Como también se señala en el comentario anterior, el ACP encuentra nuevas direcciones utilizando combinaciones lineales de las existentes. Digamos que, tras la normalización, tus datos parecen distribuidos a lo largo de la línea $x=y$ con un pequeño ruido. Entonces, PCA le da $\phi=[1,1]/\sqrt{2}$ como la primera PC, porque es la nueva dirección en la que se maximiza la varianza de los datos. El segundo PC abarcará una varianza menor y será ortogonal a éste, es decir, un vector unitario que apunta en la dirección de la línea $x=-y$ .

0voto

Peter Westfall Puntos 11

La normalización, la longitud de la unidad y la maximización de la varianza son innecesarias para la definición de los componentes principales. Causan mucha confusión innecesaria, como en el caso del PO. Hay una forma alternativa de entender los componentes principales que lo hace todo mucho más fácil e intuitivo.

En lugar de estandarizar, y luego maximizar la varianza sujeta a la restricción de la longitud de la unidad, se puede definir el primer componente principal como cualquier combinación lineal $L = \sum a_i X_i$ de manera que el total de $R^2$ al predecir cada $X_i$ como función de regresión de $L$ se maximiza.

Específicamente, elija cualquier coeficiente $a_i$ para que $\sum_i R^2(X_i | L)$ es un máximo. No es necesario estandarizar, maximizar la varianza o restringir la longitud de la unidad. Esto le da una combinación lineal que es proporcional al primer componente principal habitual.

La incómoda interpretación de que el primer CP "capta/explica la mayor parte de la varianza", aunque el problema de maximización de la varianza no está claramente relacionado con esa interpretación, es ahora perfectamente sensata cuando el CP se define como el maximizador de la varianza total explicada.

La segunda y las restantes PC pueden definirse de forma similar, y ni siquiera es necesario establecer restricciones de ortogonalidad en sus definiciones.

Ver https://pubmed.ncbi.nlm.nih.gov/28715259/ para más detalles, y para las primeras fuentes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X