42 votos

¿Existe análisis factorial o PCA para datos ordinales o binarios?

He completado el análisis de componentes principales (PCA), análisis factorial exploratorio (EFA) y análisis factorial confirmatorio (CFA), tratando los datos con escala de Likert (respuestas de 5 niveles: ninguna, un poco, algo,..) como una variable continua. Luego, utilizando Lavaan, repetí el CFA definiendo las variables como categóricas.

Me gustaría saber qué tipos de análisis serían apropiados y equivalentes al PCA y EFA cuando los datos son de naturaleza ordinal. Y cuando son binarios.

También apreciaría sugerencias de paquetes o software específicos que se puedan implementar fácilmente para tales análisis.

62voto

Uri Puntos 111

El PCA tradicional (lineal) y el análisis factorial requieren datos a nivel de escala (intervalo o razón). A menudo se asume que los datos de tipo Likert son a nivel de escala, porque son más fáciles de analizar. Y la decisión a veces está justificada estadísticamente, especialmente cuando el número de categorías ordenadas es mayor que 5 o 6. (Aunque puramente lógicamente la cuestión del tipo de datos y el número de niveles de escala son distintos.)

¿Y si prefieres tratar la escala Likert politómica como ordinal? ¿O si tienes datos dicotómicos? ¿Es posible hacer análisis factorial exploratorio o PCA para ellos?

Actualmente hay tres enfoques principales para realizar FA (incluyendo el PCA como su caso especial) en variables categóricas ordinales o binarias (lee también este artículo sobre el caso de datos binarios, y esta consideración sobre lo que se podría hacer con la escala ordinal).

  1. Enfoque de escalamiento óptimo (una familia de aplicaciones). También llamado PCA Categórico (CatPCA) o FA no lineal. En CatPCA, las variables ordinales se transforman monótonamente ("cuantifican") en sus versiones intervalares "subyacentes" con el objetivo de maximizar la varianza explicada por el número seleccionado de componentes principales extraídos de esos datos intervalares. Lo que hace que el método sea abiertamente orientado a objetivos (en lugar de teórico) e importante decidir el número de componentes principales de antemano. Si se necesita una verdadera FA en lugar de PCA, entonces naturalmente se puede realizar FA lineal habitual en esas variables transformadas resultantes de CatPCA. Con variables binarias, CatPCA se comporta (lamentablemente) de la misma manera que PCA habitual, es decir, como si fueran variables continuas. CatPCA también acepta variables nominales y cualquier combinación de tipos de variables (genial).

  2. Enfoque de variable subyacente inferida. También conocido como PCA/FA realizado en correlaciones tetracóricas (para datos binarios) o policóricas (para datos ordinales). Se asume una distribución normal para la variable continua subyacente (entonces agrupada) para cada variable manifiesta. Luego se aplica FA clásico para analizar las correlaciones mencionadas. El enfoque permite fácilmente una mezcla de datos intervalares, ordinales, binarios. Una desventaja del enfoque es que, al inferir las correlaciones, no tiene pistas sobre la distribución multivariada de las variables subyacentes, - puede "concebir" como máximo distribuciones bivariadas, así que no se basa en toda la información.

  3. Enfoque de teoría de respuesta al ítem (IRT). A veces también llamado FA logística o análisis del rasgo latente. Se aplica un modelo muy cercano al modelo logit binario (para datos binarios) o al modelo proporcional de log odds (para datos ordinales). El algoritmo no está ligado con la descomposición de una matriz de correlación, por lo que se aleja un poco de la FA tradicional, aún así es una FA categórica legítima. Los "parámetros de discriminación" corresponden estrechamente a las cargas de la FA, pero las "dificultades" sustituyen la noción de "singularidades" de la FA. La certeza de ajuste de IRT disminuye rápidamente a medida que aumenta el número de factores, lo cual es un lado problemático de este enfoque. IRT es extensible de alguna manera para incorporar variables mezcladas intervalo+binarias+ordinales y posiblemente nominales.

Los puntajes de los factores en los enfoques (2) y (3) son más difíciles de estimar que los puntajes de los factores en la FA clásica o en el enfoque (1). Sin embargo, existen varios métodos (métodos a posteriori esperados o máximos, método de máxima verosimilitud, etc.).

Las suposiciones del modelo de análisis factorial son principalmente las mismas en los tres enfoques que en la FA tradicional. El enfoque (1) está disponible en R, SPSS, SAS (a mi entender). Los enfoques (2) y (3) se implementan principalmente en paquetes especializados de variables latentes - Mplus, LISREL, EQS.

  1. Enfoque polinomial. Eso no ha sido desarrollado completamente aún. Los componentes principales pueden modelarse como combinaciones polinomiales de variables (usar polinomios es una forma popular de modelar efectos no lineales de los regresores ordinales.). Además, las categorías observadas a su vez pueden modelarse como manifestaciones discretas de combinaciones polinomiales de factores latentes.

  2. Existe un campo floreciente de técnicas no lineales de reducción de dimensionalidad; algunas de ellas pueden aplicarse o adoptarse para trabajar con datos categóricos (especialmente binarios o después de binarizar en un conjunto de datos disperso de alta dimensionalidad).

  3. Realizar FA/PCA clásica (lineal) en correlaciones de rango u otras asociaciones adecuadas para datos categóricos (Spearman/Kendall/Somer's, etc.). En el caso de datos ordinales, ese es un enfoque puramente heurístico, carece de fundamentos teóricos y no se recomienda en absoluto. Con datos binarios, las correlaciones rho de Spearman y tau-b de Kendall y la asociación Phi son iguales a la correlación r de Pearson, por lo tanto, usarlas es simplemente hacer la FA/PCA lineal habitual en datos binarios (algunos peligros de ello aquí). También es posible (aunque no es indiscutible) hacer el análisis en $r$ reescalado con respecto a su límite actual de magnitud.

Mira también en este, este, este, este, este, este, este, este.

5 votos

Respuesta fenomenal. Lo único que agregar es que creo que puedes usar el paquete psych en R para implementar enfoques en (2) (ver la opción "cor" para la función fa) y (3) (ver las funciones irt.fa e irt.poly) en varios grados, y el paquete ltm también se puede usar para ajustar varios modelos de IRT.

1 votos

Pueden diferir así. Realicé varias veces la creación/validación del inventario mediante "FA no lineal" (CatPCA-luego-EFA) y encontré resultados mejores que los obtenidos con la EFA usual (lineal). El procedimiento que adopté fue similar al de la FA usual, la única diferencia siendo que para cada análisis, cada conjunto de elementos que intento y cada número de factores que extraigo, hice el CatPCA-luego(en las variables cuantificadas)-EFA pas de deux.

0 votos

@jsakaluk, Muchas gracias por la información. (No soy usuaria de R, así que solo conozco de manera deficiente su capacidad fenomenal).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X