6 votos

Cómo identificar variables con cargas significativas en el análisis de componentes principales

Tengo el siguiente ejemplo de análisis de componentes principales utilizando las primeras 4 variables del conjunto de datos del iris (código en R):

 > res = prcomp(iris[1:4])
> res
Standard deviations:
[1] 2.0562689 0.4926162 0.2796596 0.1543862

Rotation:
                     PC1         PC2         PC3        PC4
Sepal.Length  0.36138659 -0.65658877  0.58202985  0.3154872
Sepal.Width  -0.08452251 -0.73016143 -0.59791083 -0.3197231
Petal.Length  0.85667061  0.17337266 -0.07623608 -0.4798390
Petal.Width   0.35828920  0.07548102 -0.54583143  0.7536574
 

Parece que Sepal.Width tiene una contribución muy pequeña a PC1. ¿Cómo puedo saber si es una contribución significativa? ¿Hay alguna prueba de importancia para esto? De manera similar, quiero determinar la importancia de todos los valores en la matriz anterior. Además, ¿hay algún paquete en R que lo haga? Gracias por tu ayuda.

4voto

kcrumley Puntos 2495

Esto no es (todavía) y respuesta, sólo un comentario, pero demasiado largo para el cuadro


No sé muy bien cómo determinar el significado; pero fuera de couriosity hice un arranque procedimiento: a partir de una réplica de la original de los datos a un pseudo-población de $N=19200$ I dibujar $t=1000$ randomsamples de $n=150$ (cada fila del conjunto de datos que podría ocurrir en la mayoría de los $128$ a veces).
De cada una de las esta $t=1000$ experimentos que calcula el pca-soluciones y almacena el primer pc sólo en una lista. A partir de esta 1000 instancias de primer pc tengo las siguientes estadísticas de sus cargas:

        min     max     mean    stddev se_mean lb(95%)  mean   ub(95%)
      ----------------------------------------------------------------
S.L    0.297   0.412   0.362   0.016   0.001   0.361   0.362   0.363
S.W   -0.141  -0.029  -0.084   0.018   0.001  -0.085  -0.084  -0.083
P.L    0.840   0.873   0.856   0.005   0.000   0.856   0.856   0.856
P.W    0.334   0.388   0.358   0.008   0.000   0.358   0.358   0.359

El 95% de intervalo de confianza para el elemento de S. Ancho de -0.085 .. - 0.083 y esto demuestra que este valor parece no estar lejos de cero por puro azar-efecto. (Del mismo modo estrecho aparecen 95% de intervalos de confianza para las otras cargas)
Después de que es claro que necesito una explicación más clara de lo que significa para una carga de "contribuir de manera significativa" - significado se deriva de lo implemento? (Pero eso es lo que yo todavía no entiendo, estoy completamente analfabeta, pero con la cuestión de la importancia del cálculo de las covarianzas y para cargas en un factormodel, por lo que todo esto puede ser de ninguna ayuda en absoluto aquí)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X