Elegir la cantidad de componentes principales para retener

Question

Elegir la cantidad de componentes principales para retener

Preguntado el 20 de Noviembre, 2012: Cuando se hizo la pregunta
4081 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Un método que me sugirieron es mirar un diagrama de sedimentación y verificar si hay "codo" para determinar la cantidad correcta de PC que se usará. Pero si la trama no está clara, ¿tiene R un cálculo para determinar el número?

 fit <- princomp(mydata, cor=TRUE)

Preguntado el 20 de Noviembre, 2012 por Emjay

Answer 1

2 Respuestas

Answer 2

13voto

usεr11852 Puntos 5514

El artículo siguiente : Componente de retención en el análisis de componentes principales con aplicación de microarrays de cDNA de datos por Cangelosi y Goriely da un lugar agradable visión general de la norma de la regla de los pulgares para detectar el número de componentes en un estudio. (Gráfico de sedimentación, la Proporción del total de la varianza explicada, el Promedio de autovalor de la regla, de Registro-autovalor diagrama, etc.) La mayoría de ellos son muy sencillos de implementar en R.

En general, si el gráfico de sedimentación es muy concluyentes, entonces usted sólo tiene que "pick your poison". No hay derecho absoluto o malo para los datos como en la realidad, el número de equipos a utilizar en realidad depende de su comprensión del problema. El único conjunto de datos puede "realmente" conocer la dimensión es la que se construye a sí mismo. :-) Componentes principales en el final de la jornada proporcionar la descomposición óptima de los datos en virtud de un RSS métrica (donde como producto de llegar a cada componente para representar de un modo principal de variación) y la inclusión o exclusión de un determinado número de componentes dicta su percepción acerca de la dimensionalidad del problema.

Como cuestión de preferencia personal, me gusta Minka del enfoque en esta opción Automática de la dimensionalidad de la PCA, que se basa en la interpretación probabilística de la PCA, pero, de nuevo, entrar en el juego de tratar de modelar la probabilidad de que tus datos para una determinada dimensión. (Enlace proporciona un código de Matlab si quieres seguir esta lógica.)

Tratar de entender los datos más. por ejemplo. ¿De verdad creen que en el 99.99% de su conjunto de datos de la variación se debe a su modelo de covariables? Si no probablemente probablemente no es necesario que incluya las dimensiones que presentan una pequeña proporción de la varianza total. ¿Crees que en realidad un componente refleja la variación por debajo de un umbral de apenas diferencias notables? Que probablemente significa que hay poca relevancia en la inclusión de ese componente para su análisis.

En cualquier caso, buena suerte y revise sus datos cuidadosamente. (El trazado de ellas hace maravillas también.)

Respondido el 21 de Noviembre, 2012 por usεr11852 (5514 Puntos )

Answer 3

4voto

PeteT Puntos 5277

El problema con el criterio de Kaiser (todos los valores propios mayores que uno) es que la cantidad de factores extraídos generalmente es aproximadamente un tercio del número de elementos o escalas en la batería, independientemente de si muchos de los factores adicionales son ruido. El análisis paralelo y el criterio de pedregal son generalmente procedimientos más precisos para determinar la cantidad de factores que se deben extraer (según los textos clásicos de Harmon y Ledyard Tucker, así como el trabajo más reciente de Wayne Velicer.

Respondido el 21 de Noviembre, 2012 por PeteT (5277 Puntos )

Elegir la cantidad de componentes principales para retener

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Elegir la cantidad de componentes principales para retener

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: