El artículo siguiente : Componente de retención en el análisis de componentes principales con aplicación de microarrays de cDNA de datos por Cangelosi y Goriely da un lugar agradable visión general de la norma de la regla de los pulgares para detectar el número de componentes en un estudio. (Gráfico de sedimentación, la Proporción del total de la varianza explicada, el Promedio de autovalor de la regla, de Registro-autovalor diagrama, etc.) La mayoría de ellos son muy sencillos de implementar en R.
En general, si el gráfico de sedimentación es muy concluyentes, entonces usted sólo tiene que "pick your poison". No hay derecho absoluto o malo para los datos como en la realidad, el número de equipos a utilizar en realidad depende de su comprensión del problema. El único conjunto de datos puede "realmente" conocer la dimensión es la que se construye a sí mismo. :-)
Componentes principales en el final de la jornada proporcionar la descomposición óptima de los datos en virtud de un RSS métrica (donde como producto de llegar a cada componente para representar de un modo principal de variación) y la inclusión o exclusión de un determinado número de componentes dicta su percepción acerca de la dimensionalidad del problema.
Como cuestión de preferencia personal, me gusta Minka del enfoque en esta opción Automática de la dimensionalidad de la PCA, que se basa en la interpretación probabilística de la PCA, pero, de nuevo, entrar en el juego de tratar de modelar la probabilidad de que tus datos para una determinada dimensión. (Enlace proporciona un código de Matlab si quieres seguir esta lógica.)
Tratar de entender los datos más. por ejemplo. ¿De verdad creen que en el 99.99% de su conjunto de datos de la variación se debe a su modelo de covariables? Si no probablemente probablemente no es necesario que incluya las dimensiones que presentan una pequeña proporción de la varianza total. ¿Crees que en realidad un componente refleja la variación por debajo de un umbral de apenas diferencias notables? Que probablemente significa que hay poca relevancia en la inclusión de ese componente para su análisis.
En cualquier caso, buena suerte y revise sus datos cuidadosamente. (El trazado de ellas hace maravillas también.)