7 votos

PCA encuentra una variable para que sea el más importante dos veces

Supongamos que tengo un conjunto de datos de las tres variables, Calcio, Hierro y Uranio.

Supongamos también que me quedo de la PCA y obtener los siguientes componentes principales:

$$\begin{array}{cccc}&PC_1&PC_2&PC_3\\Calcium&0.6729&0.1021&-0.6771\\Iron&0.5331&0.2554&0.5402\\Uranium&0.1123&-0.8007&-0.0432\end{array}$$

El primer PC muestra Calcio como el que tiene la mayor importancia y de Hierro como de ser el segundo más alto de correlación. El segundo PC muestra de Uranio como la que tiene la mayor correlación. Pero, el tercer PC, a continuación, de nuevo denota Calcio como el que tiene la mayor correlación con la respuesta, luego de Hierro de segunda.

Mi pregunta principal es, ¿cómo una PCA resultado puede ser interpretado. No tiene sentido decir que el Calcio es el más explicativo de la varianza, así como también de ser la tercera más variable explicativa de la varianza.

18voto

eldering Puntos 3814

Su interpretación de la PCA de los componentes no es la correcta.

PCA no digo que las variables de la cuenta de la mayor parte de la variación en los datos, de modo que una declaración como

El calcio es el más explicativo de la varianza, así como también de ser la tercera más variable explicativa de la varianza.

no pueden extraerse de un análisis del PC.

Lo que no dicen es que la dirección determinada por el vector

$$\begin{array}{cccc}&PC_1\\Calcium&0.6729\\Iron&0.5331\\Uranium&0.1123\end{array}$$

cuentas para la mayor parte de la variación en los datos. Esta dirección es una combinación de las direcciones determinadas por las variables individuales. Esta mezcla de instrucciones es fundamental para la PCA, y no puede ser eliminado o ignorado.

El mayor de componentes principales son interpretados iteravely, representan la mayor parte de la variación en los datos en direcciones que son ortogonales a la anterior PC direcciones.

6voto

Gregor Puntos 181

Usted no es la interpretación de la PCA correctamente. PCA encuentra toda una nueva base de datos. Es análogo a un cambio de base: https://www.math.hmc.edu/calculus/tutorials/changebasis/ pero nosotros elegimos una determinada base

La nueva base no es arbitraria: los vectores son seleccionados en base a la cantidad de variación que se cuenta. Es decir, la PC1 "apunta en la dirección de mayor variabilidad"

Sólo porque el componente principal (vector de proyección) de la PC1 y PC3 están en la dirección de calcio, no podemos decir que el calcio es el más "importante" (sea lo que eso puede significar!).

Geeking out sobre álgebra lineal:

Por las leyes de álgebra lineal, todos los componentes principales son ortogonales entre sí, y la de la cantidad de varianza explicada por cualquier eigvenvalue, E_p es E_p/(sum(E_i) donde suma(E_i) es la suma de todos los autovalores

por último, he aquí una buena discusión sobre PCA: el sentido del análisis de componentes principales, vectores propios y valores propios

0voto

mathreadler Puntos 141

Correlación no es lo mismo como combinación lineal con la variación más grande, que es lo que encuentra PCA.

Además, los vectores propios no tienen ninguna dirección particular. Puede multiplicarlos con $-1$ y los vectores también vectores propios con el mismo valor propio (varianza) y entonces usted conseguiría % positiva $+0.677\cdots$para el tercer componente.

Si quieres correlación tal vez usted podría ver análisis de correlación canónica (CCA) en su lugar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X