14 votos

Elegir la cantidad de componentes principales para retener

Un método que me sugirieron es mirar un diagrama de sedimentación y verificar si hay "codo" para determinar la cantidad correcta de PC que se usará. Pero si la trama no está clara, ¿tiene R un cálculo para determinar el número?

 fit <- princomp(mydata, cor=TRUE)
 

13voto

usεr11852 Puntos 5514

El artículo siguiente : Componente de retención en el análisis de componentes principales con aplicación de microarrays de cDNA de datos por Cangelosi y Goriely da un lugar agradable visión general de la norma de la regla de los pulgares para detectar el número de componentes en un estudio. (Gráfico de sedimentación, la Proporción del total de la varianza explicada, el Promedio de autovalor de la regla, de Registro-autovalor diagrama, etc.) La mayoría de ellos son muy sencillos de implementar en R.

En general, si el gráfico de sedimentación es muy concluyentes, entonces usted sólo tiene que "pick your poison". No hay derecho absoluto o malo para los datos como en la realidad, el número de equipos a utilizar en realidad depende de su comprensión del problema. El único conjunto de datos puede "realmente" conocer la dimensión es la que se construye a sí mismo. :-) Componentes principales en el final de la jornada proporcionar la descomposición óptima de los datos en virtud de un RSS métrica (donde como producto de llegar a cada componente para representar de un modo principal de variación) y la inclusión o exclusión de un determinado número de componentes dicta su percepción acerca de la dimensionalidad del problema.

Como cuestión de preferencia personal, me gusta Minka del enfoque en esta opción Automática de la dimensionalidad de la PCA, que se basa en la interpretación probabilística de la PCA, pero, de nuevo, entrar en el juego de tratar de modelar la probabilidad de que tus datos para una determinada dimensión. (Enlace proporciona un código de Matlab si quieres seguir esta lógica.)

Tratar de entender los datos más. por ejemplo. ¿De verdad creen que en el 99.99% de su conjunto de datos de la variación se debe a su modelo de covariables? Si no probablemente probablemente no es necesario que incluya las dimensiones que presentan una pequeña proporción de la varianza total. ¿Crees que en realidad un componente refleja la variación por debajo de un umbral de apenas diferencias notables? Que probablemente significa que hay poca relevancia en la inclusión de ese componente para su análisis.

En cualquier caso, buena suerte y revise sus datos cuidadosamente. (El trazado de ellas hace maravillas también.)

4voto

PeteT Puntos 5277

El problema con el criterio de Kaiser (todos los valores propios mayores que uno) es que la cantidad de factores extraídos generalmente es aproximadamente un tercio del número de elementos o escalas en la batería, independientemente de si muchos de los factores adicionales son ruido. El análisis paralelo y el criterio de pedregal son generalmente procedimientos más precisos para determinar la cantidad de factores que se deben extraer (según los textos clásicos de Harmon y Ledyard Tucker, así como el trabajo más reciente de Wayne Velicer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X