6 votos

ML vs WLSMV: ¿cuál es mejor para datos categóricos y por qué?

Estaba preguntándome cuál es un mejor estimador para utilizar con datos categóricos: ML o WLSMV. Vi en una discusión en el sitio web de Mplus que recomiendan WLSMV para datos categóricos pero no explicaron por qué. ¿Alguien sabe específicamente por qué ML no funciona tan bien?

Preferiblemente, estoy buscando una referencia que compare estos dos enfoques de estimación, pero no he podido encontrar una después de horas de búsqueda.

¡Gracias por compartir su conocimiento y experiencia!

1 votos

Supongo que podría depender de lo que quieras decir con 'trabajo'. Un problema es que no obtienes un ajuste de modelo con ML, otro es que ML es realmente, realmente lento si tienes más de un factor. ML para datos categóricos en SEM no ha estado disponible por mucho tiempo.

3 votos

¿Podrías explicar tus siglas? (Como una edición a la publicación original, no aquí en los comentarios)

9voto

AusTravel Puntos 6

En un artículo de investigación médica, Proitsi et al. (2009) escriben:

"El WLSMV es un estimador robusto que no asume variables normalmente distribuidas y proporciona la mejor opción para el modelado de datos categóricos o ordenados (Brown, 2006)".

Para su conveniencia, estoy incluyendo la referencia citada en la lista de referencias a continuación (utilizo formato APA):

Brown, T. (2006). Análisis factorial confirmatorio para investigación aplicada. Nueva York: Guildford.

Proitsi, P., Hamilton, G., Tsolaki, M., Lupton, M., Daniilidou, M., Hollingworth, P., ..., Powell, J. F. (2009, en prensa). Un modelo de múltiples indicadores y múltiples causas (MIMIC) de síntomas conductuales y psicológicos en la demencia (BPSD). Neurobiology Aging. doi:10.1016/j.neurobiolaging.2009.03.005

Espero que esto sea útil y responda a su pregunta.

2 votos

También puedes encontrar útil el siguiente artículo: "Modelos de ecuaciones estructurales en la práctica: una revisión y enfoque de dos pasos recomendado" (Anderson & Gerbin, 1988). Aunque no hace referencia a WLSMV, contiene discusión sobre varios estimadores.

0 votos

Decir que este procedimiento de estimación no requiere errores distribuidos normalmente tendría sentido al modelar resultados categóricos/ordinales como variables continuas, lo cual tendría sentido si el único interés fuera estimar una diferencia de medias. Si los datos son binarios, su media es una proporción y el modelo resultante estima diferencias de proporciones. Sin embargo, otros modelos de probabilidad no requieren supuestos de errores normales, como un modelo logit o quasi-logit. ¿Estás diciendo que el SEM no utilizará una relación de varianza media para mejorar la estimación con resultados categóricos?

0 votos

@AdamO: Sinceramente, no estoy muy seguro en este momento. Lo siento, me he desviado significativamente de SEM desde marzo de 2014. :-)

2voto

codermaster Puntos 28

La razón más obvia para elegir una sobre la otra sería el tipo de índices de ajuste que necesitas. El WLSMV te dará CFI, TLI y RMSEA, lo cual te ayudará a evaluar el ajuste de un modelo dado. Si necesitas comparar modelos no anidados, necesitarías AIC y/o BIC, los cuales no están disponibles con WLSMV y datos categóricos. Lo contrario es cierto para ML (de nuevo, solo cuando se trata de datos categóricos).

No estoy seguro de por qué recomiendan el WLSMV en el sitio web de Mplus, pero si estás comparando modelos anidados, el WLSMV probablemente sea el más conveniente ya que te permitirá tanto (1) evaluar si los modelos proporcionan un ajuste adecuado a los datos (por ejemplo, CFI > .90 y RMSEA < .5), y (2) utilizar una prueba de diferencia de chi2 para ver qué modelo proporciona el ajuste mejor de entre varios modelos competidores.

0voto

R_user123 Puntos 21

Su pregunta no hace referencia específica al análisis factorial (FA) o al modelado de ecuaciones estructurales (SEM), aunque asumiré que está interesado en general en las diferencias entre estimadores para modelos de variables latentes continuas de datos categóricos. En términos generales, hay tres clases de enfoques de modelado$^1$. El primero es el enfoque directo - un enfoque de modelado FA/SEM, que trata los datos categóricos como continuos y el estimador más utilizado para este enfoque es la máxima verosimilitud robusta (comúnmente conocida como MLR en paquetes de FA/SEM como lavaan). Supongo que ese enfoque es al que se refirió en la pregunta, porque como dijo @Jeremy Miles, "La máxima verosimilitud para datos categóricos en SEM no ha estado disponible por mucho tiempo". El segundo enfoque, al igual que el primero, es un enfoque FA/SEM, pero también puede referirse como un enfoque de análisis factorial de ítems (IFA) ya que trata los datos como categóricos. El estimador más comúnmente utilizado para este enfoque es alguna forma de mínimos cuadrados ponderados diagonalmente (DWLS). WLSMV entra en la categoría de DWLS, aunque técnicamente no es un estimador. DWLS es el estimador, y llamar a WLSMV en un paquete de software (por ejemplo, lavaan o Mplus) le indica al programa que informe errores estándar robustos y que utilice un ajuste particular a la estadística de prueba utilizada para evaluar el ajuste del modelo. La última clase de modelos son los modelos de teoría de respuesta al ítem (IRT), algunos de los cuales tienen relaciones analíticas con los modelos FA/SEM de datos categóricos (Kamata & Bauer, 2008). El estimador más común para esta clase de modelos es ML, específicamente la máxima verosimilitud marginal (MML) a través del algoritmo EM de Bock-Aitkin (Bock & Aitkin, 1981).

He excluido muchos aspectos importantes de los modelos y estimadores mencionados anteriormente, ¡aunque espero que lo que escribí le ayude a comprender mejor mis artículos recomendados! Para artículos que analizan los modelos IFA en general, recomiendo altamente Chen & Zhang (2021) y Wirth & Edwards (2007). Estos dos artículos discuten principalmente las últimas dos clases de modelos, ya que se centran en los modelos IFA. En cuanto a los artículos relacionados con el enfoque directo y los modelos FA/SEM para datos categóricos, recomiendo Flora & Curran (2004), Li (2016) y Robitzsch (2020).

$^1$ Tenga en cuenta que hay varios otros, aunque rara vez se utilizan en la práctica.

Referencias

Bock, R. D., & Aitkin, M. (1981). Estimación de máxima verosimilitud marginal de parámetros de ítems: Aplicación de un algoritmo EM. Psychometrika, 46(4), 443-459.

Chen, Y., & Zhang, S. (2021). Métodos de estimación para análisis factorial de ítems: Una visión general. Métodos Estadísticos Modernos para la Investigación en Salud, 329-350.

Flora, D. B., & Curran, P. J. (2004). Una evaluación empírica de métodos alternativos de estimación para análisis factorial confirmatorio con datos ordinales. Métodos Psicológicos, 9(4), 466.

Kamata, A., & Bauer, D. J. (2008). Una nota sobre la relación entre modelos de análisis factorial e ítems de teoría de respuesta. Modelado de Ecuaciones Estructurales: Una Revista Multidisciplinar, 15(1), 136-153.

Li, C. H. (2016). Análisis factorial confirmatorio con datos ordinales: Comparación entre máxima verosimilitud robusta y mínimos cuadrados ponderados diagonalmente. Métodos de Investigación del Comportamiento, 48, 936-949.

Robitzsch, A. (2020, octubre). Por qué las variables ordinales casi siempre pueden tratarse como variables continuas: Aclarando las suposiciones de los métodos de estimación robustos de análisis factorial continuo y ordinal. En Frontiers in Education (Vol. 5, p. 589965). Frontiers Media SA.

Wirth, R. J., & Edwards, M. C. (2007). Análisis factorial de ítems: Enfoques actuales y futuras direcciones. Métodos Psicológicos, 12(1), 58.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X