7 votos

PCA basado en la matriz de covarianza frente a la matriz de correlación

En el análisis de componentes principales (ACP), se puede elegir entre la matriz de covarianzas o la matriz de correlaciones para hallar los componentes. Éstas dan resultados diferentes porque, sospecho, los vectores propios de ambas matrices no son iguales. Las matrices (matemáticamente) similares tienen los mismos valores propios, pero no necesariamente los mismos vectores propios. Varias preguntas: (1) ¿A qué se debe esta diferencia? (2) ¿Tiene sentido el ACP, si se pueden obtener dos respuestas diferentes? (3) ¿Cuál de los dos métodos es el "mejor"? (4) Dado que el ACP opera con datos brutos estandarizados (no) en ambos casos, es decir, escalados por su desviación estándar, ¿tiene sentido utilizar los resultados para sacar conclusiones sobre el predominio de la variación para los datos reales, no estandarizados?

0 votos

Si las escalas por su desviación estándar, ¿no convierte eso la matriz de covarianza en una matriz de correlación?

0 votos

Se trata más bien de una pregunta estadística, por lo que es mejor plantearla en Cross Validated. Probablemente obtendrás más y mejores respuestas allí.

0 votos

Véase stats.stackexchange.com/questions/53/ y las preguntas vinculadas a él

2voto

Michael Hardy Puntos 128804

El problema de no estandarizar, es decir, de no escalar las variables por su desviación típica, es que si, por ejemplo, una variable se mide en centímetros y otra en dólares, el cambio de centímetros a metros puede modificar los vectores propios, por lo que una elección arbitraria de unidades puede alterar los resultados. Por eso yo utilizaría la matriz de correlaciones.

0 votos

Corrección a mi parte (4): "ambos casos" es incorrecto; las variables estandarizadas se utilizan en el ACP basado en la correlación, no en el basado en la covarianza. Pero la cuestión y la pregunta siguen en pie en el primer caso.

0 votos

Gracias, Michael. Sí, este es el mensaje/consejo que yo también recibo de la literatura, pero en el caso de que los datos sean físicamente adimensionales, todavía tienes dos opciones. No está claro cuál debe elegirse sobre una base más positiva y fundamental.

0 votos

Mi problema con el escalado es que parece destruir el problema que se intenta resolver. Si estandariza cada variable X por su propia (= a través de diferentes observaciones para la misma variable) desviación estándar, antes de realizar el ACP basado en la correlación, ¿cómo puede seguir teniendo sentido buscar direcciones de varianza máxima para combinaciones de las variables, que es de lo que trata el ACP? Sé que el ACP basado en la correlación es muy conveniente (las variables estandarizadas son adimensionales, por lo que sus combinaciones lineales se pueden añadir; otras ventajas también se basan en el pragmatismo), pero ¿es correcto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X