18 votos

Preguntas sobre el ACP: ¿cuándo son independientes las PC? ¿por qué el ACP es sensible a la escala? ¿por qué las PC están limitadas a ser ortogonales?

Estoy tratando de entender algunas descripciones de PCA (las dos primeras son de Wikipedia), el énfasis es mío:

Se garantiza que los componentes principales son independiente sólo si el conjunto de datos es distribuidos normalmente de forma conjunta .

¿Es muy importante la independencia de los componentes principales? ¿Cómo puedo entender esta descripción?

El PCA es sensible a la escala de las variables originales.

¿Qué significa "escalar" ahí? ¿Normalización de las diferentes dimensiones?

La transformación se define de manera que el primer componente principal tenga la mayor varianza posible y cada componente sucesivo tenga a su vez la mayor varianza bajo la restricción de que sea ortogonal a los componentes anteriores .

¿Puede explicar esta limitación?

6 votos

2 sólo se aplica si el ACP se realiza por eigendecomosición de la matriz de covarianza. Si se realiza por eigendecomposición de la matriz de correlación, entonces PCA es insensible a la escala.

0 votos

@Alexis Gracias por tu post. Para #2, ¿te importaría explicar qué significa el 'escalado'? el cambio dinámico de la dimensión correspondiente de los datos?

1 votos

"Escalar" puede significar varias cosas. (1) Puede significar transformaciones lineales de los datos. $\mathbf{X}$ como $\mathbf{X^{*}} = a + b\mathbf{X}$ donde $-\infty < a < \infty$ y $0 < b < \infty$ ; o (2) que las variables individuales en $\mathbf{X}$ se miden todos en la misma escala y tienen varianzas muy próximas. Mi comentario se aplica a ambos significados.

30voto

Uri Puntos 111

Q1. Los componentes principales son mutuamente ortogonal variables (no correlacionadas). Ortogonalidad e independencia estadística no son sinónimos . Los componentes principales no tienen nada de especial; lo mismo ocurre con cualquier variable en el análisis de datos multivariantes. Si los datos son normal multivariante (que no es lo mismo como para afirmar que cada una de las variables es univariantemente normal) y las variables no están correlacionadas, entonces sí, son independientes. El hecho de que la independencia de los componentes principales sea importante o no, depende de cómo se vayan a utilizar. A menudo, su ortogonalidad será suficiente.

Q2. Sí, escala significa reducir o estirar la varianza de las variables individuales. Las variables son las dimensiones del espacio en el que se encuentran los datos. Los resultados del PCA -los componentes- son sensibles a la forma de la nube de datos, la forma de ese "elipsoide". Si sólo se centran las variables, dejando las varianzas como están, esto se suele llamar "PCA basado en covarianzas". Si además estandariza las variables a varianzas = 1, esto se suele llamar "PCA basado en correlaciones", y puede ser muy diferente de lo anterior (ver un rosca ). Además, es relativamente raro que la gente haga un ACP sobre datos no centrados: datos brutos o simplemente escalados a la magnitud de la unidad; los resultados de dicho ACP son aún más diferentes de donde se centran los datos (véase un imagen ).

Q3. La "restricción" es la forma en que funciona el PCA (ver un enorme rosca ). Imagina que tus datos son una nube tridimensional (3 variables, $n$ puntos); el origen se fija en el centroide (la media) del mismo. PCA dibuja el componente1 como un eje que pasa por el origen, la suma de las proyecciones (coordenadas) al cuadrado sobre el cual es maximizado es decir, la varianza a lo largo del componente1 se maximiza. Una vez definida la componente1, puede eliminarse como dimensión, lo que significa que los puntos de datos se proyectan en el plano ortogonal a ese componente. Te queda una nube bidimensional. A continuación, se aplica el procedimiento anterior de encontrar el eje de máximo varianza - ahora en este remanente, la nube 2D. Y eso será el componente2. Se elimina la componente2 dibujada del plano proyectando los puntos de datos sobre la línea ortogonal a ella. Esa línea, que representa la nube 1D remanente, se define como el último componente, el componente 3. Se puede ver que en cada uno de estos 3 "pasos", el análisis a) encontró la dimensión de mayor varianza en la corriente $p$ -espacio dimensional, b) reducir los datos a las dimensiones sin esa dimensión, es decir, a la $p-1$ -espacio ortogonal a la dimensión mencionada. Así resulta que cada componente principal es una "varianza máxima" y todos los componentes son mutuamente ortogonales (véase también ).

[ P.D. Tenga en cuenta que "ortogonal" significa dos cosas: (1) los ejes de las variables como ejes físicamente perpendiculares; (2) las variables como no correlacionadas por sus datos. Con el ACP y algunos otros métodos multivariantes, estas dos cosas son lo mismo. Pero con algunos otros análisis (por ejemplo, el análisis discriminante), las variables latentes extraídas no correlacionadas no significa automáticamente que sus ejes son perpendiculares en el espacio original].

1 votos

+1 (hace mucho tiempo). Los futuros lectores tal vez quieran leer también las respuestas a esta pregunta: ¿Por qué los componentes principales del ACP (vectores propios de la matriz de covarianza) son mutuamente ortogonales? -- está marcado como duplicado de éste, pero contiene algunas respuestas útiles.

0 votos

@ttnphns En el postdata escribiste "estas dos cosas son lo mismo". Me parece un poco confusa la redacción. Si pienso en el ACP como un cambio de base, decir que la nueva base es ortogonal no es lo mismo que decir que las nuevas características (es decir, después del cambio de base) no están correlacionadas (podría encontrar otra base ortogonal para que las nuevas características no estén correlacionadas). son correlacionados). Soy consciente de que el ACP garantiza tanto que las PC no están correlacionadas como que los ejes principales son ortogonales, pero ¿por qué estas cosas son iguales?

0 votos

@ttnphns también, tal vez sería útil para vincular a esta respuesta ? Me ayudó a aclarar algunas confusiones con respecto a la ortogonalidad vs incorrelación de variables aleatorias, ya que según algunas definiciones son lo mismo, y según algunas definiciones son lo mismo sólo para variables centradas

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X