12 votos

¿Qué hacer el primer $k$ factores de análisis del factor de maximizar?

En el análisis de componentes principales, la primera $k$ componentes principales son el $k$ ortogonal de las direcciones con la máxima varianza. En otras palabras, el primer componente principal es el elegido para ser la dirección de máxima variación, la segunda componente principal es el elegido para ser la dirección ortogonal a la primera con la máxima varianza, y así sucesivamente.

Hay una interpretación similar para el Análisis de los factores? Por ejemplo, estoy pensando que la primera $k$ factores son los factores que mejor explican el fuera de la diagonal de los componentes de la original de correlación de la matriz (en el sentido de, por ejemplo, el error cuadrático entre el original de la matriz de correlación y la matriz de correlación definido por los factores). Es esto cierto (o hay algo parecido que se puede decir)?

7voto

Nathan Long Puntos 30303

La PCA es principalmente una técnica de reducción de datos, donde el objetivo es obtener una proyección de los datos en un menor espacio tridimensional. Dos equivalentes de objetivos, ya sea de forma iterativa maximizar la varianza o para minimizar el error de reconstrucción. Esto es realmente trabajado en algunos de los detalles en las respuestas a esta pregunta anterior.

En contraste, el factor de análisis es principalmente un modelo generativo de una $p$-dimensional de datos vectoriales $X$ diciendo que $$X = AS + \epsilon$$ donde $S$ $q$ dimensiones del vector de factores latentes, $A$ $p \times k$ $k < p$ $\epsilon$ es un vector de errores no correlacionados. El $A$ matriz es la matriz de factor de cargas. Esto produce un especial parametrización de la matriz de covarianza como $$\Sigma = AA^T + D$$ El problema con este modelo es que es overparametrized. El mismo modelo se obtiene si $A$ es reemplazado por $AR$ cualquier $k \times k$ ortogonal de la matriz $R$, lo que significa que los factores que en sí mismos no son únicas. Varias sugerencias que existen para la solución de este problema, pero hay no una única solución que le da a factores con el tipo de interpretación se pida. Una opción popular es el varimax de rotación. Sin embargo, el criterio utilizado sólo determina la rotación. La columna de espacio atravesado por $A$ no cambia, y ya que esto es parte de la parametrización, se determina por cualquiera que sea el método utilizado para la estimación de $\Sigma$ - por máxima verosimilitud de un modelo Gaussiano, dicen.

Por lo tanto, para responder a la pregunta, el elegido factores que no están dadas de forma automática desde el uso de un factor de análisis de modelo, de modo que no hay una sola interpretación de la $k$ primeros factores. Se puede especificar el método utilizado para la estimación de (la columna espacio de) $A$ y el método utilizado para elegir la rotación. Si $D = \sigma^2 I$ (todos los errores tienen la misma varianza) el MLE solución para el espacio columna de a $A$ es el espacio generado por los líderes de $q$ principal componente de los vectores, que puede ser encontrado por una descomposición de valor singular. Es posible, por supuesto, no gire y se informe de estos componentes principales vectores como los factores.

Edit: Para destacar como yo lo veo, el factor de modelo de análisis es un modelo de la matriz de covarianza como un rango $k$ matriz, además de una matriz diagonal. Así, el objetivo del modelo es la que mejor explica la covarianza con una estructura en la matriz de covarianza. La interpretación es que este tipo de estructura en la matriz de covarianza es compatible con un inadvertido $k$ coeficiente dimensional. Por desgracia, los factores que no pueden ser recuperados de forma exclusiva, y cómo podrían ser elegido, dentro del conjunto de posibles factores que no se relacionan de alguna manera a la explicación de los datos. Como es el caso de la PCA, se puede normalizar los datos iniciales y por lo tanto se ajustan a un modelo que intenta explicar la matriz de correlación como un rango $k$, además de una matriz diagonal.

3voto

Uri Puntos 111

@RAEGTIN, yo creo que usted piense bien. Después de la extracción y antes de la rotación, cada una de las sucesivas factor no cuenta para menos y menos de covariación/correlación, como cada una de las sucesivas componente representa menos de la varianza: en ambos casos, las columnas de una matriz de carga de Un ir en el orden de caída de la suma de los cuadrados de los elementos (cargas) en ellos. La carga de correlación bw factor y variable; por lo tanto, se puede decir que el 1er factor que explica la mayor parte de "en general" el cuadrado de r en R de la matriz, el 2 es el factor de segundo, etc. La diferencia entre la FA y la PCA, a pesar de que, en la predicción de las correlaciones por cargas es el siguiente: FA es "calibrado" para restaurar R muy finamente con sólo m extrae factores (m factores < p variables), mientras que la PCA es grosero en la restauración de m componentes, que necesita a todos los p componentes para restaurar R sin error.

P. S. Acabo de agregar. En el FA, una carga de valor "consiste en" limpiar la comunalidad (una parte de la varianza responsable de la correlación), mientras que en el PCA de carga es una mezcla de distintas comunidades y uniqness de la variable y, por tanto, se agarra a la variabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X