10 votos

Conclusiones del resultado de un análisis de componente principal

Estoy tratando de entender la salida de análisis de componentes principales se realiza de la siguiente manera:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

Tiendo a la conclusión siguiente de arriba de la salida:

  1. La proporción de la varianza indica la cantidad de varianza total que hay en la varianza de un determinado componente principal. Por lo tanto, la PC1 variabilidad explica el 73% de la varianza total de los datos.

  2. La rotación de los valores que se muestran son los mismos como 'cargas' mencionado en algunas descripciones.

  3. Teniendo en cuenta las rotaciones de la PC1, se puede concluir que los Sépalos.La Longitud Del Pétalo.La longitud y el Pétalo.Ancho están directamente relacionadas, y todos ellos están inversamente relacionados con los Sépalos.Ancho (que tiene un valor negativo en la rotación de la PC1)

  4. No puede ser un factor en las plantas (algunos químicas/físico funcional del sistema, etc) que pueden estar afectando a todas estas variables (Sépalo.La Longitud Del Pétalo.La longitud y el Pétalo.De ancho en una sola dirección y Sépalo.La anchura en la dirección opuesta).

  5. Si quiero mostrar todas las rotaciones en un gráfico, que puede mostrar su contribución relativa a la variación total multiplicando cada rotación por la proporción de la varianza de la componente principal. Por ejemplo, para la PC1, las rotaciones de 0,52, -0.26, 0.58 y 0,56 son todos multiplicado por 0.73 (en proporción de varianza para la PC1, que se muestra en el resumen(res) de salida.

Yo estoy en lo correcto acerca de las conclusiones anteriores?

Edición con respecto a la pregunta 5: quiero mostrar a todo el giro en un simple barchart de la siguiente manera: enter image description here

Desde la PC2, PC3 y PC4 han progresivamente menor contribución a la variación, va a tener sentido para ajustar (reducir) las saturaciones de las variables?

10voto

jsakaluk Puntos 544
  1. Sí. Esta es la interpretación correcta.
  2. Sí, la rotación de los valores indican el componente de valores de carga. Esto es confirmado por la prcomp documentación, aunque no estoy seguro de por qué la etiqueta de esta parte del aspecto de "Rotación", ya que implica las cargas han sido rota con algunos ortogonal (probable) u oblicua (menos probable) método.
  3. Mientras que él no parece ser el caso de que los Sépalos.La Longitud Del Pétalo.La longitud y el Pétalo.El ancho de todos los asociados positivamente, yo no lo pondría como mucho stock en el negativo de la carga de los Sépalos.Ancho en la PC1; se carga mucho más fuerte (casi exclusivamente) en la PC2. Para ser claros, Sépalo.La anchura es probable que se asoció negativamente con las otras tres variables, pero no parece estar fuertemente relacionada con la primera componente principal.
  4. En función de esta pregunta, me pregunto si sería mejor servido mediante el uso de un factor común (CF) de análisis, en lugar de un principio de análisis de componentes (PCA). La FQ es la más apropiada de los datos-la reducción de la técnica cuando su objetivo es descubrir significativa teórico dimensiones, tales como la planta de factor de que usted está bajo la hipótesis de que puede afectar a los Sépalos.La Longitud Del Pétalo.La longitud y el Pétalo.La anchura. Aprecio que estén de algún tipo de ciencias biológicas--botánica tal vez--pero hay algunas buenas escrito en Psicología en la PCA v. CF distinción por Fabrigar et al., 1999, Widaman, de 2007, y demás. El núcleo de la distinción entre los dos es que el PCA se supone que todas las varianzas es verdad-la puntuación de variantes: no hay error se supone), mientras que la CF particiones verdadera calificación de la varianza de la varianza de error, antes de que los factores extraídos y factor de carga estimado. En última instancia, podría tener una apariencia similar solución ... la gente a veces, pero cuando lo hacen divergir, tiende a ser el caso de que la PCA sobreestimar valores de carga, y subestima las correlaciones entre los componentes. Un beneficio adicional de la CF enfoque es que se puede utilizar la estimación de máxima verosimilitud para realizar las pruebas de significación de los valores de carga, además de hacer algunos índices del funcionamiento de la solución elegida (de 1 factor, 2 factores 3 factores, o 4 factores) explica sus datos.
  5. Me gustaría trazar el factor de carga de valores como usted tiene, sin ponderación de sus bares por la proporción de la varianza para sus respectivos componentes. Yo entiendo lo que usted desea para tratar de mostrar a través de este enfoque, pero creo que podría llevar a los lectores a la incomprensión de la componente de la carga de valores a partir de su análisis. Sin embargo, si usted quiere, de una manera visual de mostrar la magnitud relativa de varianza explicada por cada componente, usted podría considerar la posibilidad de la manipulación de la opacidad de los grupos de barras (si estás usando ggplot2, yo creo que esto se hace con el alpha estética), basado en la proporción de la varianza explicada por cada componente (es decir, más colores sólidos = más de varianza explicada). Sin embargo, en mi experiencia, su figura no es una típica forma de presentar los resultados de un PCA--creo una tabla o dos (cargas de + la varianza explicada en uno, componente de las correlaciones en otro), sería mucho más sencillo.

Referencias

Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluar el uso del análisis factorial exploratorio en la investigación psicológica. Métodos Psicológicos, 4, 272-299.

Widaman, K. F. (2007). Factores comunes frente a los componentes: los Directores y los principios, errores y malentendidos. En R. Cudeck & R. C. MacCallum (Eds.), El análisis de los factores a los 100 años: su desarrollo Histórico y de las futuras direcciones (p 177-203). Mahwah, NJ: Lawrence Erlbaum.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X