18 votos

PCA de selección del modelo de uso de AIC

Quiero usar el Criterio de Información Akaike (AIC) para elegir el número adecuado de factores a extraer en un PCA. El único problema es que no estoy seguro de cómo determinar el número de parámetros.

Considere la posibilidad de una $T\times N$ matriz $X$ donde $N$ representa el número de variables y $T$ el número de observaciones, de tal manera que $X\sim \mathcal N\left(0,\Sigma\right)$. Dado que la matriz de covarianza es simétrica, entonces una estimación de máxima verosimilitud de $\Sigma$ podría establecer el número de parámetros de la AIC igual a $\frac{N\left(N+1\right)}{2}$.

Alternativamente, en un PCA, se podrían extraer de la primera $f$ autovectores y autovalores de a $\Sigma$, llamarlos $\beta_{f}$ $\Lambda_{f}$ y, a continuación, calcular el $$\Sigma=\beta_{f}\Lambda_{f}\beta_{f}'+I\sigma_{r}^{2}$$ donde $\sigma_{r}^{2}$ es el promedio de la varianza residual. Por mi cuenta, si usted tiene $f$ factores, a continuación, $f$ parámetros en $\Lambda_{f}$, $Nf$ parámetros en $\beta_{f}$, e $1$ parámetro en $\sigma_{r}^{2}$.

Es este enfoque correcto? Parece que conduciría a más parámetros que la máxima probabilidad de enfoque como el número de factores aumenta a $N$.

11voto

usεr11852 Puntos 5514

Las obras de Minka (selección Automática de la dimensionalidad de la PCA, 2000) y de Inflexión Y el Obispo (Probabilístico Análisis de Componentes Principales) con respecto a un probabilística de vista de la PCA podría proporcionar el marco interesado. Minka del trabajo proporciona una aproximación de la log-verosimilitud $\mathrm{log}\: p(D|k)$ donde $k$ es la latente dimensionalidad del conjunto de datos de $D$ mediante el uso de una aproximación de Laplace; como se afirma explícitamente : "Una simplificación de Laplace del método es el BIC de la aproximación."

Claramente esto toma un punto de vista Bayesiano de su problema que no se basa en la teoría de la información criterios (KL-divergencia) utilizado por la AIC.

Con respecto a la original "determinación de los parámetros de "número" pregunta yo también creo que @whuber comentario lleva la correcta intuición.

10voto

Vanam Puntos 6

La selección de un "adecuado" número de componentes en el PCA puede ser realizada con elegancia, con Cuerno del Análisis Paralelo (PA). Documentos muestran que este criterio de manera consistente a las reglas de pulgar, tales como el codo de criterio o de Kaiser regla. El paquete de R "paran" tiene una implementación de PA que requiere sólo un par de clics del ratón.

Por supuesto, cómo muchos de los componentes a retener depende de los objetivos de la reducción de datos. Si sólo desea conservar la varianza que es "significativo", PA darle una reducción óptima. Si usted desea minimizar la pérdida de información de los datos originales, sin embargo, usted debe retener suficientes componentes para cubrir el 95% de la variación explicada. Obviamente, esto va a mantener muchos más de los componentes de la PA, a pesar de las grandes dimensiones de los conjuntos de datos, la reducción de dimensionalidad todavía será considerable.

Una nota final acerca de la PCA como una "selección de modelo" problema. No estoy totalmente de acuerdo con la respuesta de Pedro. Ha habido una serie de documentos que reformulada PCA como una regresión de tipo de problema, tales como la Escasa PCA, Dispersas Probabilística de la PCA, o ScotLASS. En estos "modelo" basado en PCA soluciones, las cargas son parámetros que se pueden establecer a 0 con pena términos. Es de suponer que, en este contexto, también sería posible calcular AIC o BIC tipo de estadísticas para el modelo bajo consideración.

Este enfoque, en teoría, podría incluir un modelo donde, por ejemplo, dos de los equipos están sin restricciones (todas las cargas no-cero), frente a un modelo en el PC1 es libre y PC2 tiene todas las cargas de establecer a 0. Esto sería equivalente a inferir si PC2 es redundante en su conjunto.

Referencias (PA):

  • Dinno, A. (2012). parán: el Cuerno de la Prueba de Componentes Principales o Factores. R paquete de la versión 1.5.1. http://CRAN.R-project.org/package=paran
  • Cuerno J. L. 1965. Una justificación y una prueba para el número de factores en el análisis factorial. Psychometrika. 30: 179-185
  • Hubbard, R. & Allen S. J. (1987). Una comparación empírica de los métodos alternativos para la componente principal de la extracción. Revista de Investigación de Negocios, 15, 173-190.
  • Zwick, W. R. & Velicer, W. F. 1986. Comparación de los Cinco Reglas para Determinar el Número de Componentes a Retener. Psychological Bulletin. 99: 432-442

-1voto

mat_geek Puntos 1367

AIC está diseñado para el modelo de selección. Esto no es realmente un problema de selección de modelo y que tal vez sería mejor tomando un enfoque diferente. Una alternativa podría ser para especificar un determinado porcentaje total de la varianza explicada (como dicen 75%) y se detiene cuando el porcentaje llega al 75% si es que alguna vez lo hace.

-3voto

Zizzencs Puntos 1358

AIC no es apropiado aquí. No seleccionar entre modelos con diferentes números de parámetros - componente principal no es un parámetro.

Hay un número de métodos de decidir sobre el número de factores o componentes a partir de un análisis factorial o el análisis de componentes principales - scree test, autovalor > 1, etc. Pero la prueba real es sustantivo: ¿Qué número de factores hace sentido? Miren los factores, considerar el peso, la figura que mejor se adapte a sus datos.

Como otras cosas en las estadísticas, esto no es algo que puede ser fácilmente automatizado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X