La selección de un "adecuado" número de componentes en el PCA puede ser realizada con elegancia, con Cuerno del Análisis Paralelo (PA). Documentos muestran que este criterio de manera consistente a las reglas de pulgar, tales como el codo de criterio o de Kaiser regla. El paquete de R "paran" tiene una implementación de PA que requiere sólo un par de clics del ratón.
Por supuesto, cómo muchos de los componentes a retener depende de los objetivos de la reducción de datos. Si sólo desea conservar la varianza que es "significativo", PA darle una reducción óptima. Si usted desea minimizar la pérdida de información de los datos originales, sin embargo, usted debe retener suficientes componentes para cubrir el 95% de la variación explicada. Obviamente, esto va a mantener muchos más de los componentes de la PA, a pesar de las grandes dimensiones de los conjuntos de datos, la reducción de dimensionalidad todavía será considerable.
Una nota final acerca de la PCA como una "selección de modelo" problema. No estoy totalmente de acuerdo con la respuesta de Pedro. Ha habido una serie de documentos que reformulada PCA como una regresión de tipo de problema, tales como la Escasa PCA, Dispersas Probabilística de la PCA, o ScotLASS. En estos "modelo" basado en PCA soluciones, las cargas son parámetros que se pueden establecer a 0 con pena términos. Es de suponer que, en este contexto, también sería posible calcular AIC o BIC tipo de estadísticas para el modelo bajo consideración.
Este enfoque, en teoría, podría incluir un modelo donde, por ejemplo, dos de los equipos están sin restricciones (todas las cargas no-cero), frente a un modelo en el PC1 es libre y PC2 tiene todas las cargas de establecer a 0. Esto sería equivalente a inferir si PC2 es redundante en su conjunto.
Referencias (PA):
- Dinno, A. (2012). parán: el Cuerno de la Prueba de Componentes Principales o Factores. R paquete de la versión 1.5.1. http://CRAN.R-project.org/package=paran
- Cuerno J. L. 1965. Una justificación y una prueba para el número de factores en el análisis factorial. Psychometrika. 30: 179-185
- Hubbard, R. & Allen S. J. (1987). Una comparación empírica de los métodos alternativos para la componente principal de la extracción. Revista de Investigación de Negocios, 15, 173-190.
- Zwick, W. R. & Velicer, W. F. 1986. Comparación de los Cinco Reglas para Determinar el Número de Componentes a Retener. Psychological Bulletin. 99: 432-442