20 votos

PCA y análisis factorial exploratorio en el mismo conjunto de datos: diferencias y similitudes; modelo factorial frente a PCA

Me gustaría saber si tiene algún sentido lógico realizar un análisis de componentes principales (ACP) y un análisis factorial exploratorio (AFE) en el mismo conjunto de datos. He oído a profesionales recomendar expresamente:

  1. Comprender cuál es el objetivo del análisis y elegir PCA o EFA para el análisis de datos;
  2. Una vez realizado un análisis, no es necesario realizar el otro.

Comprendo las diferencias de motivación entre ambos, pero me preguntaba si hay algo malo en interpretar al mismo tiempo los resultados proporcionados por el ACP y el EPT.

24voto

Uri Puntos 111

Ambos modelos - componente principal et factor común - son modelos regresivos lineales sencillos similares que predicen variables observadas mediante variables latentes. Tengamos variables centradas V1 V2 ... Vp y elegimos extraer 2 componentes/factores FI et FII . Entonces el modelo es el sistema de ecuaciones:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

donde coeficiente a es una carga, F es un factor o un componente, y la variable E son los residuos de la regresión. Aquí, Modelo FA difiere de Modelo PCA exactamente por la que FA impone el requisito: variables E1 E2 ... Ep (los términos de error que no están correlacionados con el F s) deben no correlacionar entre sí ( Ver fotos ) . Estas variables de error FA las denomina "factores únicos"; se conocen sus varianzas ("unicidades") pero no sus valores casuísticos. Por lo tanto, las puntuaciones factoriales F se calculan sólo como buenas aproximaciones, no son exactas.

(Una presentación en álgebra matricial de este modelo de análisis factorial común se encuentra en la nota a pie de página $^1$ .)

Mientras que en el ACP las variables de error de predicción de distintas variables pueden correlacionarse libremente: no se les impone nada. Representan esa "escoria" de la que nos hemos desprendido p-2 dimensiones para. Conocemos los valores de E y así podemos calcular las puntuaciones de los componentes F como valores exactos.

Esa era la diferencia entre el modelo PCA y el modelo FA.

Gracias a esta diferencia, el AF es capaz de explicar correlaciones entre pares (covarianzas). PCA generalmente no puede hacerlo (a menos que el número de componentes extraídos = p ); sólo puede explicar la varianza multivariante $^2$ . Así pues, siempre que el término "análisis factorial" se defina a través del objetivo de explicar las correlaciones, el ACP no es análisis factorial. Si el "análisis factorial" se define de forma más amplia como un método que proporciona o sugiere "rasgos" latentes que pueden ser interpretados, el ACP puede considerarse como un método especial y más simple de análisis factorial. forma de análisis factorial.

A veces - en algunos conjuntos de datos en determinadas condiciones - PCA deja E términos que casi no se interrelacionan. Entonces PCA puede explicar las correlaciones y ser como FA. No es muy raro con conjuntos de datos con muchas variables. Esto ha llevado a algunos observadores a afirmar que los resultados del PCA se aproximan a los del AF a medida que aumentan los datos. No creo que sea una regla, pero la tendencia puede serlo. De todos modos, dadas sus diferencias teóricas, siempre es bueno seleccionar el método conscientemente. FA es un método más realista si quieres reducir las variables a latentes que vas a considerar como rasgos latentes reales que están detrás de las variables y hacen que se correlacionen.

Pero si se tiene otro objetivo - reducir la dimensionalidad manteniendo al máximo las distancias entre los puntos de la nube de datos - PCA es mejor que FA. (Sin embargo, el procedimiento iterativo de escalado multidimensional (MDS) será aún mejor entonces. PCA asciende a MDS métrico no iterativo). Si además no se preocupa mucho por las distancias y sólo está interesado en preservar la mayor parte posible de la varianza global de los datos, por pocas dimensiones - PCA es una elección óptima.


$^1$ Modelo de datos de análisis factorial: $\mathbf {V=FA'+E}diag \bf(u)$ donde $\bf V$ es n cases x p variables datos analizados (columnas centradas o normalizadas), $\bf F$ es n x m valores factoriales comunes (los verdaderos desconocidos, no las puntuaciones factoriales) con varianza unitaria, $\bf A$ es p x m matriz de cargas factoriales comunes (matriz de patrones), $\bf E$ es n x p valores únicos de los factores (desconocidos), $\bf u$ es el p vector de las cargas factoriales únicas igual a la raíz cuadrada de las unicidades ( $\bf u^2$ ). Porción $\mathbf E diag \bf(u)$ podría etiquetarse simplemente como " E " para simplificar, al igual que en las fórmulas que abren la respuesta.

Principales hipótesis del modelo:

  • $\bf F$ et $\bf E$ (factores comunes y únicos, respectivamente) tienen medias nulas y varianzas unitarias; $\bf E$ se suele suponer normal multivariante, pero $\bf F$ en el caso general no necesita ser normal multivariante (si ambos se asumen normales multivariantes entonces $\bf V$ también lo son);
  • $\bf E$ variables no están correlacionadas entre sí y no están correlacionadas con $\bf F$ variables.

$^2$ Se deduce de la análisis factorial modelo que las cargas $\bf A$ de m factores comunes ( m < p variables), también denotadas $\bf A_{(m)}$ debe reproducir fielmente las covarianzas (o correlaciones) observadas entre las variables, $\bf \Sigma$ . De modo que si los factores son ortogonales, la fundamental teorema del factor establece que

$\bf \hat{\Sigma} = AA'$ et $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$ ,

donde $\bf \hat{\Sigma}$ es la matriz de covarianzas (o correlaciones) reproducidas con varianzas comunes ("comunalidades") en su diagonal; y las varianzas únicas ("unicidades") -que son varianzas menos comunalidades- son el vector $\bf u^2$ . La discrepancia no diagonal ( $\approx$ ) se debe a que los factores son un modelo teórico generador de datos, y como tal es más simple que los datos observados sobre los que se construyó. Las principales causas de la discrepancia entre las covarianzas (o correlaciones) observadas y las reproducidas pueden ser: (1) número de factores m no es estadísticamente óptima; (2) correlaciones parciales (son p(p-1)/2 factores que no pertenecen a los factores comunes) son pronunciados; (3) las comunalidades no están bien evaluadas, sus valores iniciales han sido pobres; (4) las relaciones no son lineales, el uso de un modelo lineal es cuestionable; (5) el "subtipo" de modelo producido por el método de extracción no es óptimo para los datos (véase sobre diferentes métodos de extracción ). En otras palabras, algunos Supuestos de datos FA no se cumplen plenamente.

En cuanto a PCA reproduce las covarianzas por las cargas exactamente cuando m \= p (se utilizan todos los componentes) y suele fallar si m < p (sólo se conservan algunos componentes de 1ª). El teorema factorial para PCA es:

$\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$ ,

por lo que ambos $\bf A_{(m)}$ cargas y caídas $\bf A_{(p-m)}$ Las cargas son mezclas de comunalidades y singularidades y ninguna de ellas por separado puede ayudar a restablecer las covarianzas. Cuanto más m es p Por regla general, cuanto mejor sea el PCA, mejor se restablecerán las covarianzas. m (que a menudo es de nuestro interés) no ayudan. Esto es diferente de FA, que es previsto para restaurar covarianzas con un número óptimo de factores bastante pequeño. Si $\bf AA'_{(p-m)}$ se acerca a la diagonalidad PCA se convierte en FA, con $\bf A_{(m)}$ restaurando todas las covarianzas. Ocurre ocasionalmente con PCA, como ya he mencionado. Pero PCA carece de capacidad algorítmica para forzar dicha diagonalización. Son los algoritmos FA los que lo hacen.

FA, no PCA, es un modelo generativo de datos: presume pocos factores comunes "verdaderos" (de número generalmente desconocido, por lo que se prueba m dentro de un rango) que generan valores "verdaderos" para las covarianzas. Las covarianzas observadas son las "verdaderas" + un pequeño ruido aleatorio. (Se debe a la diagonalización realizada que dejó $\bf A_{(m)}$ el solo restaurador de todas las covarianzas, que el ruido anterior puede ser pequeño y aleatorio). Intentar ajustar más factores de los óptimos equivale a un intento de sobreajuste, y no necesariamente a un intento de sobreajuste eficiente.

Tanto FA como PCA tienen como objetivo maximizar $trace(\bf A'A_{(m)})$ pero para PCA es el único objetivo; para FA es el objetivo concomitante, siendo el otro diagonalizar las unicidades. Esa traza es la suma de los valores propios en PCA. Algunos métodos de extracción en FA añaden más objetivos concomitantes a expensas de maximizar la traza, por lo que no es de importancia principal.

Para resumir las diferencias explicadas entre los dos métodos. Los objetivos del AF ( directa o indirectamente ) al minimizar las diferencias entre los elementos individuales correspondientes no diagonales de $\bf \Sigma$ et $\bf AA'$ . Un modelo FA exitoso es el que deja pequeños los errores para las covarianzas y de tipo aleatorio (normal o uniforme en torno a 0, sin valores atípicos/colas gruesas). PCA sólo maximiza $trace(\bf AA')$ que es igual a $trace(\bf A'A)$ (y $\bf A'A$ es igual a la matriz de covarianza de los componentes principales, que es una matriz diagonal). Por lo tanto, PCA no está "ocupado" con todas las covarianzas individuales: simplemente no puede, siendo simplemente una forma de rotación ortogonal de los datos.

Gracias a la maximización de la traza -la varianza explicada por m componentes - PCA es teniendo en cuenta las covarianzas, ya que la covarianza es varianza compartida. En este sentido, el ACP es una "aproximación de bajo rango" del todo matriz de covarianza de las variables. Y vista desde el punto de vista de las observaciones, esta aproximación es la aproximación de la matriz de distancia euclidiana de las observaciones (por eso el ACP es el MDS métrico llamado "Análisis de coordenadas principales"). Este hecho no debe protegernos de la realidad de que PCA no modela la matriz de covarianza (cada covarianza) como generada por unos pocos rasgos latentes vivos que son imaginables como trascendentes hacia nuestras variables; la aproximación PCA sigue siendo inmanente, aunque sea buena: es simplificación de los datos.


Si desea ver paso a paso los cálculos realizados en PCA y FA, comentados y comparados, consulte en aquí .

7voto

zowens Puntos 1417

En el siguiente hilo ofrecí mi propio relato de las similitudes y diferencias entre PCA y FA: ¿Hay alguna buena razón para utilizar el ACP en lugar del EPT? Además, ¿puede el ACP sustituir al análisis factorial?

Tenga en cuenta que mi cuenta es algo diferente de la de @ttnphns (como se presenta en su respuesta anterior). Mi afirmación principal es que PCA y FA no son tan diferentes como a menudo se piensa. De hecho, pueden diferir mucho cuando el número de variables es muy bajo, pero tienden a producir resultados bastante similares cuando el número de variables supera la docena. Véase mi respuesta [¡larga!] en el hilo enlazado para detalles matemáticos y simulaciones Monte Carlo. Para una versión mucho más concisa de mi argumento, véase aquí: ¿En qué condiciones el ACP y el AF arrojan resultados similares?

Aquí me gustaría responder explícitamente a su pregunta principal: ¿Hay algún problema en aplicar el ACP y el AF al mismo conjunto de datos? Mi respuesta a esto es: No.

Cuando se ejecuta PCA o FA, no se está probando ninguna hipótesis. Ambos son exploratorio técnicas que se utilizan para comprender mejor los datos. Entonces, ¿por qué no explorar los datos con dos herramientas diferentes? De hecho, ¡hagámoslo!

Ejemplo: conjunto de datos sobre vinos

A modo de ejemplo, he utilizado un conocido conjunto de datos sobre el vino con $n=178$ vinos de tres uvas diferentes descritos por $p=13$ variables. Véase mi respuesta aquí: ¿Cuáles son las diferencias entre el análisis factorial y el análisis de componentes principales? para los detalles del modo, pero brevemente -- corrí ambos análisis PCA y FA e hice biplots 2D para ambos. Uno puede ver fácilmente que la diferencia es mínima:

PCA and FA analysis of the wine dataset

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X