Ambos modelos - componente principal et factor común - son modelos regresivos lineales sencillos similares que predicen variables observadas mediante variables latentes. Tengamos variables centradas V1 V2 ... Vp y elegimos extraer 2 componentes/factores FI et FII . Entonces el modelo es el sistema de ecuaciones:
$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$
$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$
$...$
$V_p = …$
donde coeficiente a es una carga, F es un factor o un componente, y la variable E son los residuos de la regresión. Aquí, Modelo FA difiere de Modelo PCA exactamente por la que FA impone el requisito: variables E1 E2 ... Ep (los términos de error que no están correlacionados con el F s) deben no correlacionar entre sí ( Ver fotos ) . Estas variables de error FA las denomina "factores únicos"; se conocen sus varianzas ("unicidades") pero no sus valores casuísticos. Por lo tanto, las puntuaciones factoriales F se calculan sólo como buenas aproximaciones, no son exactas.
(Una presentación en álgebra matricial de este modelo de análisis factorial común se encuentra en la nota a pie de página $^1$ .)
Mientras que en el ACP las variables de error de predicción de distintas variables pueden correlacionarse libremente: no se les impone nada. Representan esa "escoria" de la que nos hemos desprendido p-2 dimensiones para. Conocemos los valores de E y así podemos calcular las puntuaciones de los componentes F como valores exactos.
Esa era la diferencia entre el modelo PCA y el modelo FA.
Gracias a esta diferencia, el AF es capaz de explicar correlaciones entre pares (covarianzas). PCA generalmente no puede hacerlo (a menos que el número de componentes extraídos = p ); sólo puede explicar la varianza multivariante $^2$ . Así pues, siempre que el término "análisis factorial" se defina a través del objetivo de explicar las correlaciones, el ACP no es análisis factorial. Si el "análisis factorial" se define de forma más amplia como un método que proporciona o sugiere "rasgos" latentes que pueden ser interpretados, el ACP puede considerarse como un método especial y más simple de análisis factorial. forma de análisis factorial.
A veces - en algunos conjuntos de datos en determinadas condiciones - PCA deja E términos que casi no se interrelacionan. Entonces PCA puede explicar las correlaciones y ser como FA. No es muy raro con conjuntos de datos con muchas variables. Esto ha llevado a algunos observadores a afirmar que los resultados del PCA se aproximan a los del AF a medida que aumentan los datos. No creo que sea una regla, pero la tendencia puede serlo. De todos modos, dadas sus diferencias teóricas, siempre es bueno seleccionar el método conscientemente. FA es un método más realista si quieres reducir las variables a latentes que vas a considerar como rasgos latentes reales que están detrás de las variables y hacen que se correlacionen.
Pero si se tiene otro objetivo - reducir la dimensionalidad manteniendo al máximo las distancias entre los puntos de la nube de datos - PCA es mejor que FA. (Sin embargo, el procedimiento iterativo de escalado multidimensional (MDS) será aún mejor entonces. PCA asciende a MDS métrico no iterativo). Si además no se preocupa mucho por las distancias y sólo está interesado en preservar la mayor parte posible de la varianza global de los datos, por pocas dimensiones - PCA es una elección óptima.
$^1$ Modelo de datos de análisis factorial: $\mathbf {V=FA'+E}diag \bf(u)$ donde $\bf V$ es n cases x p variables
datos analizados (columnas centradas o normalizadas), $\bf F$ es n x m
valores factoriales comunes (los verdaderos desconocidos, no las puntuaciones factoriales) con varianza unitaria, $\bf A$ es p x m
matriz de cargas factoriales comunes (matriz de patrones), $\bf E$ es n x p
valores únicos de los factores (desconocidos), $\bf u$ es el p
vector de las cargas factoriales únicas igual a la raíz cuadrada de las unicidades ( $\bf u^2$ ). Porción $\mathbf E diag \bf(u)$ podría etiquetarse simplemente como " E " para simplificar, al igual que en las fórmulas que abren la respuesta.
Principales hipótesis del modelo:
- $\bf F$ et $\bf E$ (factores comunes y únicos, respectivamente) tienen medias nulas y varianzas unitarias; $\bf E$ se suele suponer normal multivariante, pero $\bf F$ en el caso general no necesita ser normal multivariante (si ambos se asumen normales multivariantes entonces $\bf V$ también lo son);
- $\bf E$ variables no están correlacionadas entre sí y no están correlacionadas con $\bf F$ variables.
$^2$ Se deduce de la análisis factorial modelo que las cargas $\bf A$ de m factores comunes ( m < p variables), también denotadas $\bf A_{(m)}$ debe reproducir fielmente las covarianzas (o correlaciones) observadas entre las variables, $\bf \Sigma$ . De modo que si los factores son ortogonales, la fundamental teorema del factor establece que
$\bf \hat{\Sigma} = AA'$ et $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$ ,
donde $\bf \hat{\Sigma}$ es la matriz de covarianzas (o correlaciones) reproducidas con varianzas comunes ("comunalidades") en su diagonal; y las varianzas únicas ("unicidades") -que son varianzas menos comunalidades- son el vector $\bf u^2$ . La discrepancia no diagonal ( $\approx$ ) se debe a que los factores son un modelo teórico generador de datos, y como tal es más simple que los datos observados sobre los que se construyó. Las principales causas de la discrepancia entre las covarianzas (o correlaciones) observadas y las reproducidas pueden ser: (1) número de factores m no es estadísticamente óptima; (2) correlaciones parciales (son p(p-1)/2
factores que no pertenecen a los factores comunes) son pronunciados; (3) las comunalidades no están bien evaluadas, sus valores iniciales han sido pobres; (4) las relaciones no son lineales, el uso de un modelo lineal es cuestionable; (5) el "subtipo" de modelo producido por el método de extracción no es óptimo para los datos (véase sobre diferentes métodos de extracción ). En otras palabras, algunos Supuestos de datos FA no se cumplen plenamente.
En cuanto a PCA reproduce las covarianzas por las cargas exactamente cuando m \= p (se utilizan todos los componentes) y suele fallar si m < p (sólo se conservan algunos componentes de 1ª). El teorema factorial para PCA es:
$\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$ ,
por lo que ambos $\bf A_{(m)}$ cargas y caídas $\bf A_{(p-m)}$ Las cargas son mezclas de comunalidades y singularidades y ninguna de ellas por separado puede ayudar a restablecer las covarianzas. Cuanto más m es p Por regla general, cuanto mejor sea el PCA, mejor se restablecerán las covarianzas. m (que a menudo es de nuestro interés) no ayudan. Esto es diferente de FA, que es previsto para restaurar covarianzas con un número óptimo de factores bastante pequeño. Si $\bf AA'_{(p-m)}$ se acerca a la diagonalidad PCA se convierte en FA, con $\bf A_{(m)}$ restaurando todas las covarianzas. Ocurre ocasionalmente con PCA, como ya he mencionado. Pero PCA carece de capacidad algorítmica para forzar dicha diagonalización. Son los algoritmos FA los que lo hacen.
FA, no PCA, es un modelo generativo de datos: presume pocos factores comunes "verdaderos" (de número generalmente desconocido, por lo que se prueba m dentro de un rango) que generan valores "verdaderos" para las covarianzas. Las covarianzas observadas son las "verdaderas" + un pequeño ruido aleatorio. (Se debe a la diagonalización realizada que dejó $\bf A_{(m)}$ el solo restaurador de todas las covarianzas, que el ruido anterior puede ser pequeño y aleatorio). Intentar ajustar más factores de los óptimos equivale a un intento de sobreajuste, y no necesariamente a un intento de sobreajuste eficiente.
Tanto FA como PCA tienen como objetivo maximizar $trace(\bf A'A_{(m)})$ pero para PCA es el único objetivo; para FA es el objetivo concomitante, siendo el otro diagonalizar las unicidades. Esa traza es la suma de los valores propios en PCA. Algunos métodos de extracción en FA añaden más objetivos concomitantes a expensas de maximizar la traza, por lo que no es de importancia principal.
Para resumir las diferencias explicadas entre los dos métodos. Los objetivos del AF ( directa o indirectamente ) al minimizar las diferencias entre los elementos individuales correspondientes no diagonales de $\bf \Sigma$ et $\bf AA'$ . Un modelo FA exitoso es el que deja pequeños los errores para las covarianzas y de tipo aleatorio (normal o uniforme en torno a 0, sin valores atípicos/colas gruesas). PCA sólo maximiza $trace(\bf AA')$ que es igual a $trace(\bf A'A)$ (y $\bf A'A$ es igual a la matriz de covarianza de los componentes principales, que es una matriz diagonal). Por lo tanto, PCA no está "ocupado" con todas las covarianzas individuales: simplemente no puede, siendo simplemente una forma de rotación ortogonal de los datos.
Gracias a la maximización de la traza -la varianza explicada por m componentes - PCA es teniendo en cuenta las covarianzas, ya que la covarianza es varianza compartida. En este sentido, el ACP es una "aproximación de bajo rango" del todo matriz de covarianza de las variables. Y vista desde el punto de vista de las observaciones, esta aproximación es la aproximación de la matriz de distancia euclidiana de las observaciones (por eso el ACP es el MDS métrico llamado "Análisis de coordenadas principales"). Este hecho no debe protegernos de la realidad de que PCA no modela la matriz de covarianza (cada covarianza) como generada por unos pocos rasgos latentes vivos que son imaginables como trascendentes hacia nuestras variables; la aproximación PCA sigue siendo inmanente, aunque sea buena: es simplificación de los datos.
Si desea ver paso a paso los cálculos realizados en PCA y FA, comentados y comparados, consulte en aquí .