El PCA tradicional (lineal) y el análisis factorial requieren datos a nivel de escala (intervalo o razón). A menudo se asume que los datos de tipo Likert son a nivel de escala, porque son más fáciles de analizar. Y la decisión a veces está justificada estadísticamente, especialmente cuando el número de categorías ordenadas es mayor que 5 o 6. (Aunque puramente lógicamente la cuestión del tipo de datos y el número de niveles de escala son distintos.)
¿Y si prefieres tratar la escala Likert politómica como ordinal? ¿O si tienes datos dicotómicos? ¿Es posible hacer análisis factorial exploratorio o PCA para ellos?
Actualmente hay tres enfoques principales para realizar FA (incluyendo el PCA como su caso especial) en variables categóricas ordinales o binarias (lee también este artículo sobre el caso de datos binarios, y esta consideración sobre lo que se podría hacer con la escala ordinal).
-
Enfoque de escalamiento óptimo (una familia de aplicaciones). También llamado PCA Categórico (CatPCA) o FA no lineal. En CatPCA, las variables ordinales se transforman monótonamente ("cuantifican") en sus versiones intervalares "subyacentes" con el objetivo de maximizar la varianza explicada por el número seleccionado de componentes principales extraídos de esos datos intervalares. Lo que hace que el método sea abiertamente orientado a objetivos (en lugar de teórico) e importante decidir el número de componentes principales de antemano. Si se necesita una verdadera FA en lugar de PCA, entonces naturalmente se puede realizar FA lineal habitual en esas variables transformadas resultantes de CatPCA. Con variables binarias, CatPCA se comporta (lamentablemente) de la misma manera que PCA habitual, es decir, como si fueran variables continuas. CatPCA también acepta variables nominales y cualquier combinación de tipos de variables (genial).
-
Enfoque de variable subyacente inferida. También conocido como PCA/FA realizado en correlaciones tetracóricas (para datos binarios) o policóricas (para datos ordinales). Se asume una distribución normal para la variable continua subyacente (entonces agrupada) para cada variable manifiesta. Luego se aplica FA clásico para analizar las correlaciones mencionadas. El enfoque permite fácilmente una mezcla de datos intervalares, ordinales, binarios. Una desventaja del enfoque es que, al inferir las correlaciones, no tiene pistas sobre la distribución multivariada de las variables subyacentes, - puede "concebir" como máximo distribuciones bivariadas, así que no se basa en toda la información.
-
Enfoque de teoría de respuesta al ítem (IRT). A veces también llamado FA logística o análisis del rasgo latente. Se aplica un modelo muy cercano al modelo logit binario (para datos binarios) o al modelo proporcional de log odds (para datos ordinales). El algoritmo no está ligado con la descomposición de una matriz de correlación, por lo que se aleja un poco de la FA tradicional, aún así es una FA categórica legítima. Los "parámetros de discriminación" corresponden estrechamente a las cargas de la FA, pero las "dificultades" sustituyen la noción de "singularidades" de la FA. La certeza de ajuste de IRT disminuye rápidamente a medida que aumenta el número de factores, lo cual es un lado problemático de este enfoque. IRT es extensible de alguna manera para incorporar variables mezcladas intervalo+binarias+ordinales y posiblemente nominales.
Los puntajes de los factores en los enfoques (2) y (3) son más difíciles de estimar que los puntajes de los factores en la FA clásica o en el enfoque (1). Sin embargo, existen varios métodos (métodos a posteriori esperados o máximos, método de máxima verosimilitud, etc.).
Las suposiciones del modelo de análisis factorial son principalmente las mismas en los tres enfoques que en la FA tradicional. El enfoque (1) está disponible en R, SPSS, SAS (a mi entender). Los enfoques (2) y (3) se implementan principalmente en paquetes especializados de variables latentes - Mplus, LISREL, EQS.
-
Enfoque polinomial. Eso no ha sido desarrollado completamente aún. Los componentes principales pueden modelarse como combinaciones polinomiales de variables (usar polinomios es una forma popular de modelar efectos no lineales de los regresores ordinales.). Además, las categorías observadas a su vez pueden modelarse como manifestaciones discretas de combinaciones polinomiales de factores latentes.
-
Existe un campo floreciente de técnicas no lineales de reducción de dimensionalidad; algunas de ellas pueden aplicarse o adoptarse para trabajar con datos categóricos (especialmente binarios o después de binarizar en un conjunto de datos disperso de alta dimensionalidad).
-
Realizar FA/PCA clásica (lineal) en correlaciones de rango u otras asociaciones adecuadas para datos categóricos (Spearman/Kendall/Somer's, etc.). En el caso de datos ordinales, ese es un enfoque puramente heurístico, carece de fundamentos teóricos y no se recomienda en absoluto. Con datos binarios, las correlaciones rho de Spearman y tau-b de Kendall y la asociación Phi son iguales a la correlación r de Pearson, por lo tanto, usarlas es simplemente hacer la FA/PCA lineal habitual en datos binarios (algunos peligros de ello aquí). También es posible (aunque no es indiscutible) hacer el análisis en $r$ reescalado con respecto a su límite actual de magnitud.
Mira también en este, este, este, este, este, este, este, este.