37 votos

PCA sobre correlación o covarianza: ¿tiene sentido el PCA sobre correlación?

En el análisis de componentes principales (ACP), se puede elegir la matriz de covarianza o la matriz de correlación para encontrar los componentes (a partir de sus respectivos vectores propios). Éstas dan resultados diferentes (cargas y puntuaciones de PC), porque los vectores propios de ambas matrices no son iguales. Entiendo que esto se debe a que un vector de datos en bruto $X$ y su normalización $Z$ no pueden relacionarse mediante una transformación ortogonal. Matemáticamente, las matrices similares (es decir, relacionadas mediante una transformación ortogonal) tienen los mismos valores propios, pero no necesariamente los mismos vectores propios.

Esto me plantea algunas dificultades:

  1. ¿Tiene realmente sentido el PCA, si se pueden obtener dos respuestas diferentes para el mismo conjunto de datos de partida, tratando ambos de conseguir lo mismo (=encontrar direcciones de máxima varianza)?

  2. Cuando se utiliza el enfoque de la matriz de correlación, cada variable se estandariza (escala) por su propia desviación estándar individual, antes de calcular los PC. ¿Cómo, entonces, sigue teniendo sentido encontrar las direcciones de máxima varianza si los datos ya han sido escalados/comprimidos de forma diferente de antemano? Sé que ese ACP basado en la correlación es muy conveniente (las variables estandarizadas son adimensionales, por lo que sus combinaciones lineales pueden sumarse; otras ventajas también se basan en el pragmatismo), pero ¿es correcto?

Me parece que el ACP basado en la covarianza es el único verdaderamente correcto (incluso cuando las varianzas de las variables difieren mucho), y que siempre que no se pueda utilizar esta versión, tampoco se debería utilizar el ACP basado en la correlación.

Sé que existe este hilo: ¿PCA sobre correlación o covarianza? -- pero parece centrarse sólo en encontrar una solución pragmática, que puede o no ser también una solución algebraicamente correcta.

7 votos

Voy a ser sincero y decirte que dejé de leer tu pregunta en algún momento. El PCA tiene sentido. Sí, los resultados pueden ser diferentes dependiendo de si usted elige utilizar la correlación o la matriz de varianza/covarianza. El ACP basado en la correlación es preferible si sus variables se miden en diferentes escalas, pero no quiere que esto domine el resultado. Imagine que tiene una serie de variables que van de 0 a 1 y luego algunas que tienen valores muy grandes (relativamente hablando, como de 0 a 1000), la gran varianza asociada al segundo grupo de variables dominará.

0 votos

He cambiado el título, para marcar la diferencia con las preguntas anteriores sobre el tema. Espero que el nuevo título esté bien.

2 votos

@ Patrick: (1) por favor, lee la pregunta completa antes de responder, como cortesía y enfoque generalmente sensato. (2) Tu ejemplo ilustra la cuestión: si convierto el intervalo [0,1000] en dBA o en cualquier escala logarítmica, los datos van ahora de - \infty a 30, es decir, los valores originalmente cercanos a cero (digamos, 0,001) se estiran y se alejan mucho más del nuevo centro (logarítmico) que los 1000 originales. El escalado (incluyendo la división por s.d. individual) permite que los puntos de datos -en particular los valores atípicos- se trasladen a casi cualquier lugar. Este es el caso incluso cuando todas las variables se miden en la misma escala.

38voto

Uri Puntos 111

Espero que estas respuestas a sus dos preguntas calmen su preocupación:

  1. Una matriz de correlación es una matriz de covarianza de los datos estandarizados (es decir, no sólo centrados sino también reescalados); es decir, una matriz de covarianza (como si) de otro , un conjunto de datos diferente. Así que es natural y no debería molestarle que los resultados difieran.
  2. Sí, tiene sentido encontrar las direcciones de máxima varianza con datos estandarizados - son las direcciones de - por así decirlo - "correlación", no "covariación"; es decir, después de quitar el efecto de las varianzas desiguales - de las variables originales - sobre la forma de la nube de datos multivariada.

Siguiente texto e imágenes añadidas por @whuber (le doy las gracias. Además, véase mi comentario más abajo)

He aquí un ejemplo bidimensional que muestra por qué sigue teniendo sentido localizar los ejes principales de los datos estandarizados (mostrados a la derecha). Obsérvese que en el gráfico de la derecha la nube sigue teniendo "forma" aunque las varianzas a lo largo de los ejes de coordenadas sean ahora exactamente iguales (a 1,0). Del mismo modo, en dimensiones superiores, la nube de puntos estandarizada tendrá una forma no esférica aunque las varianzas a lo largo de todos los ejes sean exactamente iguales (a 1,0). Los ejes principales (con sus correspondientes valores propios) describen esa forma. Otra forma de entender esto es observar que todo el cambio de escala y desplazamiento que se produce al estandarizar las variables ocurre sólo en las direcciones de los ejes de coordenadas y no en las propias direcciones principales.

Figure

Lo que ocurre aquí es geométricamente tan intuitivo y claro que sería exagerado caracterizarlo como una "operación de caja negra": al contrario, la normalización y el ACP son algunas de las cosas más básicas y rutinarias que hacemos con los datos para entenderlos.


Continúa por @ttnphns

Cuando se prefiere hacer un ACP (o un análisis factorial u otro tipo de análisis similar) en correlaciones (es decir, sobre variables estandarizadas en z) en lugar de hacerlo sobre covarianzas (es decir, en variables centradas)?

  1. Cuando las variables son unidades de medida diferentes. Eso está claro.
  2. Cuando se quiere que el análisis refleje sólo y únicamente lineal asociaciones. Pearson r no es sólo la covarianza entre las variables sin escalar (varianza=1); de repente es la medida de la fuerza de la relación lineal, mientras que el coeficiente de covarianza habitual es receptivo tanto a la relación lineal como a la monótona.
  3. Cuando se quiere que las asociaciones reflejen relativa desviación (de la media) en lugar de la desviación bruta. La correlación se basa en las distribuciones, en su dispersión, mientras que la covarianza se basa en la escala de medición original. Si tuviera que analizar los perfiles psicopatológicos de los pacientes evaluados por los psiquiatras en algún cuestionario clínico compuesto por ítems de tipo Likert, preferiría las covarianzas. Porque no se espera que los profesionales distorsionen la escala de valoración intrapsíquica. Si, por el contrario, tuviera que analizar los autoperitajes de los pacientes mediante ese mismo cuestionario, probablemente elegiría correlaciones. Porque se espera que la valoración de los legos sea relativa "otras personas", "la mayoría" "desviación permisible" o similares implícitos das Man lupa que "encoge" o "estira" la escala de valoración para uno.

1 votos

1. Lo siento, pero esto molesta mucho. Para un individuo externo, la normalización es una operación de caja negra, que forma parte del preacondicionamiento PCA de los datos (también en ICA). Quiere una respuesta para sus datos de entrada (en bruto), especialmente si se trata de datos físicos (dimensionados) para los que la salida del ACP debe interpretarse también físicamente (es decir, en términos de variables no estandarizadas).

0 votos

2. Según tengo entendido, el ACP maximiza la varianza (Joliffe, p. 2); la covarianza y la correlación (¿tienen direcciones?) no son una preocupación u objetivo principal, ya que se eliminan mediante la diagolización de la matriz de correlación/covarianza de todos modos. Si se quita la desigualdad de varianzas que define la forma de la nube, ¿cómo se puede seguir pretendiendo encontrar su(s) dirección(es) de máxima extensión?

0 votos

PCA maximizes variance; covariance and correlation... are not a primary concern El PCA maximiza la salida de multivariante varianza, es decir, fuera de la varianza + covarianza. La forma de una nube de datos en dimensiones concretas (las variables) está descrita ("definida") por la matriz de varianza-covarianza. Si las varianzas a lo largo de esas dimensiones se obligan a ser todas iguales, la forma cambia, pero puede seguir siendo elipsoide y merecer la pena el análisis PC.

6voto

Alexander Malfait Puntos 1920

Hablando desde un punto de vista práctico - posiblemente impopular aquí - si tiene datos medidos en diferentes escalas, entonces vaya con la correlación ('escala UV' si usted es un químico), pero si las variables están en la misma escala y el tamaño de ellas importa (por ejemplo, con datos espectroscópicos), entonces la covarianza (centrando los datos solamente) tiene más sentido. El PCA es un método que depende de la escala y también la transformación logarítmica puede ayudar con datos muy sesgados.

En mi humilde opinión, basada en 20 años de aplicación práctica de la quimiometría, hay que experimentar un poco y ver qué es lo que mejor funciona para tu tipo de datos. A fin de cuentas, hay que ser capaz de reproducir los resultados e intentar demostrar la previsibilidad de las conclusiones. La forma de conseguirlo es a menudo un caso de ensayo y error pero lo que importa es que lo que hagas esté documentado y sea reproducible.

5 votos

El enfoque práctico que parece defender aquí se reduce a -cuando tanto las covarianzas como las correlaciones están justificadas- "probar ambas y ver qué funciona mejor". Esa postura puramente empírica enmascara el hecho de que cualquier elección va acompañada de sus propios supuestos o paradigma sobre la realidad que el investigador debería conocer de antemano, incluso si entiende que prefiere uno de ellos de forma totalmente arbitraria. La selección de "lo que mejor funciona" es la capitalización del sentimiento de placer, la narcomanía.

-1voto

Lucozade Puntos 299

Como complemento a la respuesta de Reid: un grupo generado finitamente es máximamente casi periódico si y sólo si es residualmente finito. De hecho, si un grupo es residualmente finito, se incrusta en su terminación profinita, que es compacta. A la inversa, si un grupo generado finitamente $G$ se incrusta en un grupo compacto $K$ , entonces usando primero que los homomorfismos $K\rightarrow U(n)$ puntos separados de $K$ y en segundo lugar que los grupos lineales generados finitamente son residualmente finitos (teorema de Mal'cev), concluimos que $G$ es residualmente finito.

0 votos

La referencia que falta aquí es Jolliffe, I.T. 2002. Análisis de componentes principales. Nueva York: Springer. [En las citas es habitual encontrar varios errores de ortografía en el nombre del autor].

3 votos

Es tan divertido que tu propia respuesta, que está en sintonía con todo lo que la gente de aquí intentaba transmitirte, siga sin resolverte. Sigues discutiendo There seems little point en el PCA sobre las correlaciones. Pues bien, si se necesita estar cerca de los datos brutos ("datos físicos", como extrañamente los llamas), realmente no deberías usar correlaciones ya que corresponden a otros datos ("distorsionados").

2 votos

(Cont.) La cita de Jolliffe afirma que las PC obtenidas sobre correlaciones siempre serán ellas mismas y no pueden convertirse "de nuevo" en PC sobre covarianzas aunque se puedan reexpresar como combinaciones lineales de las variables originales. Así, Jolliffe insiste en la idea de que los resultados del PCA dependen totalmente del tipo de preprocesamiento utilizado y que no existen PCs "verdaderos", "genuinos" o "universales"...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X