23 votos

Utilización de modelos de ecuaciones estructurales para analizar estudios observacionales en psicología

He observado que esta cuestión se plantea a menudo en el ámbito de la consultoría estadística y me gustaría conocer su opinión.

Contexto

A menudo hablo con estudiantes de investigación que han realizado un estudio aproximadamente como el siguiente:

  • Estudio observacional
  • El tamaño de la muestra puede ser de 100, 200, 300, etc.
  • Se han medido múltiples escalas psicológicas (por ejemplo, quizás ansiedad, depresión, personalidad, actitudes, otras escalas clínicas, quizás inteligencia, etc.)

Los investigadores han leído la bibliografía pertinente y tienen algunas ideas sobre los posibles procesos causales. A menudo habrá una conceptualización general de las variables en antecedentes, variables de proceso y variables de resultado. También han oído a menudo que la modelización de ecuaciones estructurales es más apropiada para probar modelos generales de las relaciones entre el conjunto de variables que están estudiando.

Pregunta

  • ¿En qué condiciones cree que la modelización de ecuaciones estructurales es una técnica adecuada para analizar este tipo de estudios?
  • Si no recomendara la modelización de ecuaciones estructurales, ¿qué técnicas alternativas recomendaría?
  • ¿Qué consejos daría a los investigadores que se plantean utilizar modelos de ecuaciones estructurales en estos casos?

18voto

jsakaluk Puntos 544

Mi descargo de responsabilidad : Me doy cuenta de que esta pregunta ha permanecido latente durante algún tiempo, pero parece ser importante, y que usted pretendía suscitar múltiples respuestas. Soy psicóloga social y, por lo que parece, probablemente me sienta más cómoda con este tipo de diseños que Henrik (aunque su preocupación por las interpretaciones causales es totalmente legítima).

¿En qué condiciones es el SEM una técnica adecuada de análisis de datos?

Para mí, esta pregunta plantea en realidad dos subcuestiones distintas:

  1. ¿Por qué utilizar el SEM?
  2. Si un investigador ha decidido utilizar SEM, ¿cuáles son los requisitos relacionados con los datos para utilizar SEM?

¿Por qué utilizar el SEM?

El SEM es un método de análisis de datos más matizado y complicado (y, por lo tanto, menos accesible) que otros métodos más típicos de modelización lineal general (por ejemplo, ANOVA, correlaciones, regresión y sus extensiones, etc.). Cualquier cosa que se le ocurra hacer con estos métodos, puede hacerla con el SEM.

Por lo tanto, creo que los posibles usuarios deberían evaluar en primer lugar por qué se ven obligados a utilizar el SEM en primer lugar. No cabe duda de que el SEM ofrece algunas ventajas importantes a sus usuarios, pero he revisado artículos en los que no se aprovecha ninguna de estas ventajas y el resultado final es una sección de análisis de datos en un artículo que resulta innecesariamente más difícil de entender para los lectores típicos. No merece la pena, ni para el investigador ni para el lector, si no se aprovechan las ventajas del SEM frente a otros métodos de análisis de datos.

¿Cuáles son, en mi opinión, las principales ventajas de un enfoque SEM? En mi opinión, las principales son:

(1) Modelización de variables latentes : El SEM permite a los usuarios examinar relaciones estructurales (varianzas, covarianzas/correlaciones, regresiones, diferencias de medias entre grupos) entre variables latentes no observadas, que son esencialmente la covarianza compartida entre un grupo de variables (por ejemplo, los ítems de una medida de ansiedad que puedan utilizar sus alumnos).

El gran argumento de venta para analizar variables latentes (por ejemplo, ansiedad latente) frente a una puntuación observada del constructo (por ejemplo, una media de los ítems de ansiedad) es que las variables latentes están libres de errores: las variables latentes están formadas por covarianza compartida, y se teoriza que el error no covaría con nada. Esto se traduce en una mayor potencia estadística, ya que los usuarios ya no tienen que preocuparse de que la falta de fiabilidad de la medición atenúe los efectos que intentan modelizar.

Otra razón, más subestimada, para considerar el uso del SEM es que, en algunos casos, es una forma más válida de poner a prueba nuestras teorías sobre constructos. Si sus estudiantes, por ejemplo, utilizaran tres medidas diferentes de ansiedad, ¿no sería mejor comprender las causas y consecuencias de lo que esas tres medidas tienen en común -presumiblemente la ansiedad- en un marco SEM, en lugar de privilegiar una medida en particular como "la ansiedad"? el ¿Medida de la ansiedad?

(2) Modelización de múltiples variables dependientes : Incluso si alguien no va a utilizar el SEM para modelizar variables latentes, puede resultar bastante útil como marco para analizar simultáneamente múltiples variables de resultado en un modelo. Por ejemplo, tal vez sus estudiantes estén interesados en explorar cómo los mismos predictores se asocian con una serie de diferentes resultados clínicamente relevantes (por ejemplo, ansiedad, depresión, soledad, autoestima, etc.). ¿Por qué ejecutar cuatro modelos separados (aumentando la tasa de error de tipo I), cuando puede ejecutar un solo modelo para los cuatro resultados que le interesan? Ésta también es una razón para utilizar el SEM cuando se trabaja con ciertos tipos de datos dependientes, en los que múltiples encuestados dependientes pueden dar respuestas tanto de predicción como de resultado (p. ej., datos diádicos; véase Kenny, Kashy y Cook, 2006, para una descripción del enfoque SEM para utilizar el Modelo de interdependencia actor-pareja [APIM]).

(3) Modelar supuestos, en lugar de hacerlos : Con muchos otros enfoques del análisis de datos (por ejemplo, ANOVA, correlación, regresión), hacemos un montón de suposiciones sobre las propiedades de los datos con los que tratamos, como la homogeneidad de la varianza y la homocedasticidad. El SEM (normalmente combinado con un enfoque de variable latente) permite a los usuarios modelar parámetros de varianza simultáneamente con medias y/o correlaciones/vías regresivas. Esto significa que los usuarios pueden empezar a teorizar y probar hipótesis sobre la variabilidad, además de las diferencias de medias/covariabilidad, en lugar de tratar la variabilidad como una molesta idea de última hora relacionada con los supuestos.

Otra hipótesis comprobable, cuando se comparan los niveles medios de un grupo en alguna variable, es si esa variable realmente significa lo mismo a cada grupo--lo que se denomina invarianza de medida en la literatura sobre SEM (véase Vandenberg & Lance, 2000, para una revisión de este proceso). Si es así, las comparaciones de los niveles medios de esa variable son válidas, pero si los grupos tienen una comprensión significativamente diferente de lo que es algo, la comparación de los niveles medios entre grupos es cuestionable. Hacemos esta suposición implícita todo el tiempo en la investigación que utiliza comparaciones de grupos.

Y luego está la suposición de que, cuando se promedian o suman las puntuaciones de los ítems (por ejemplo, en una medida de ansiedad) para crear un índice agregado, cada ítem es una medida igual de buena del constructo subyacente (porque cada ítem tiene el mismo peso en la media/suma). El SEM elimina este supuesto cuando se utilizan variables latentes, estimando diferentes valores de carga factorial (la asociación entre el ítem y la variable latente) para cada ítem.

Por último, otros supuestos sobre los datos (por ejemplo, la normalidad), aunque siguen siendo importantes para el SEM, pueden gestionarse (por ejemplo, mediante el uso de estimadores "robustos", véase Finney y DiStefano, 2008) cuando los datos no cumplen ciertos criterios (bajos niveles de asimetría y curtosis).

(4) Especificación de las restricciones del modelo : La última gran razón, en mi opinión, para considerar el uso del SEM es que facilita enormemente la comprobación de hipótesis concretas que se puedan tener sobre el modelo de datos, forzando ("restringiendo", en términos de SEM) ciertas trayectorias del modelo para que adopten valores concretos y examinando cómo afecta esto al ajuste del modelo a los datos. Algunos ejemplos son: (A) restringir una vía de regresión a cero, para probar si es necesaria en el modelo; (B) contener múltiples vías de regresión para que sean iguales en magnitud (por ejemplo, ¿es la fuerza asociativa para algún predictor aproximadamente igual para la ansiedad y la depresión?); (C) restringir los parámetros de medición necesarios para evaluar la invarianza de la medición (descrita anteriormente); (D) restringir una vía de regresión para que sea igual en fuerza entre dos grupos diferentes, con el fin de probar la moderación por grupo.

¿Cuáles son los requisitos de SEM en materia de datos?

Los requisitos relacionados con los datos para el SEM son bastante modestos: se necesita un tamaño de muestra adecuado y que los datos cumplan los supuestos del estimador del modelo que se haya seleccionado (el típico es el de máxima verosimilitud).

Es difícil dar una recomendación única sobre el tamaño de la muestra. Basándose en algunas simulaciones sencillas, Little (2013) sugiere que para modelos muy simples, 100-150 observaciones podrían ser suficientes, pero las necesidades de tamaño de la muestra aumentarán a medida que los modelos se vuelvan más complejos, y/o a medida que disminuya la fiabilidad/validez de las variables utilizadas en el modelo. Si la complejidad del modelo es motivo de preocupación, podría considerar la posibilidad de parcelar los indicadores de sus variables latentes, pero no todos están de acuerdo con este enfoque (Little, Cunningham, Shahar y Widaman, 2002). Pero, en términos generales, en igualdad de condiciones, las muestras más grandes (yo me esfuerzo por llegar a un mínimo de 200 en mi propia investigación) son mejores.

En cuanto al cumplimiento de los supuestos de un estimador seleccionado, suele ser bastante fácil de evaluar (por ejemplo, observe los valores de asimetría y curtosis de un estimador de máxima verosimilitud). E incluso si los datos se alejan de las propiedades asumidas, una investigación podría considerar el uso de un estimador "robusto" (Finney & DiStefano, 2008), o un estimador que asuma un tipo diferente de datos (por ejemplo, un estimador categórico, como mínimos cuadrados ponderados diagonalmente).

¿Alternativas al SEM para el análisis de datos?

Si un investigador no va a aprovechar las ventajas de un enfoque SEM que he destacado anteriormente, le recomendaría que se ciñera a la versión más directa y accesible de ese análisis concreto (por ejemplo, pruebas t, ANOVA, análisis de correlación, modelos de regresión [incluidos los modelos de mediación, moderación y proceso condicional]). Los lectores están más familiarizados con ellos y, por tanto, los entenderán más fácilmente. No merece la pena confundir a los lectores con las minucias del SEM si se está utilizando esencialmente el SEM con el mismo efecto que un enfoque analítico más sencillo.

Consejos a los investigadores que se plantean utilizar el SEM

Para los recién llegados al SEM:

  1. Obtenga un texto básico de SEM completo y de fácil comprensión. Me gustan Beaujean (2014), Brown (2015; la edición anterior también es sólida) y Little (2013; buena introducción general, aunque luego se centre específicamente en modelos longitudinales).
  2. Aprenda a utilizar el lavaan paquete para R (Rosseel, 2012). Su sintaxis es todo lo sencilla que puede ser una sintaxis SEM, su funcionalidad es lo suficientemente amplia para las necesidades SEM de mucha gente (sin duda para principiantes) y es gratuito. El libro de Beaujean ofrece una gran introducción simultánea al SEM y al lavaan paquete.
  3. Consulte/utilice CrossValidated y StacksOverflow con regularidad. Pueden ocurrir cosas inesperadas al ajustar modelos SEM, y lo más probable es que muchas de las cosas extrañas que puedas experimentar ya se hayan descrito y solucionado en Stacks.
  4. Como señala Herik, tenga en cuenta que el hecho de que esté especificando un modelo que implica asociaciones causales no significa que el SEM ayude a establecer la causalidad en un estudio transversal/no experimental. Además, merece totalmente la pena considerar el uso del SEM para analizar datos de diseños longitudinales y/o experimentales.

Y para los que empiezan a utilizar realmente el SEM:

  1. En algún momento tendrá la tentación de especificar residuos correlacionados a discreción, en un esfuerzo por mejorar el ajuste de su modelo. No lo haga. Al menos, no sin una buena a priori razón. La mayoría de las veces, el remedio es una muestra mayor o un modelo más sencillo.
  2. Evite el uso del método de identificación de variables marcadoras para variables latentes (es decir, fijar la carga del primer factor en 1). Privilegia ese indicador como el indicador "patrón oro" de su variable latente, cuando en la mayoría de los casos no hay razón para suponer que sea así. Tenga en cuenta que esta es la configuración de identificación por defecto en la mayoría de los programas.

Referencias

Beaujean, A. A. (2014). Modelización de variables latentes con R: Guía paso a paso . Nueva York, NY: Routledge.

Brown, T. A. (2015). Análisis factorial confirmatorio para investigadores aplicados (2ª edición). Nueva York, NY: Guilford Press.

Finney, S. J., & DiStefano, C. (2008). Datos no normales y categóricos en el modelado de ecuaciones estructurales. En G. R. Hancock & R. D. Mueller (Eds.), Modelización de ecuaciones estructurales: Un segundo curso (pp. 269-314). Information Age Publishing.

Kenny, D. A., Kashy, D. A., & Cook, W. L. (2006). Análisis diádico de datos . Nueva York, NY: Guilford Press.

Little, T. D. (2013). Modelización de ecuaciones estructurales longitudinales . Nueva York, NY: Guilford Press.

Little, T. D., Cunningham, W. A., Shahar, G., & Widaman, K. F. (2002). Parcelar o no parcelar: Exploring the question, weighing the merits. Modelización de ecuaciones estructurales , 9 , 151-173.

Rosseel, Y. (2012). lavaan: Un paquete R para el modelado de ecuaciones estructurales. Revista de Software Estadístico , 48 (2), 1-36.

Vandenberg, R. J., y Lance, C. E. (2000). A review and synthesis of the measurement invariance literature: Sugerencias, prácticas y recomendaciones para los investigadores organizativos. Métodos de investigación organizativa , 3 , 4-70.

13voto

Anthony Cramp Puntos 126

Descargo de responsabilidad: me considero un psicólogo experiemtal con énfasis en lo experimental. Por lo tanto, tengo un malestar natural con diseños como este.

Para responder a su primera y segunda pregunta: Creo que para un diseño como este un SEM o, dependiendo del número de variables implicadas, análisis de mediación o moderación es la forma natural de tratar los datos. No tengo ni idea de qué más recomendar.

Para su tercera pregunta: Creo que la principal ventaja de un diseño como este es su principal desventaja. A saber, que (dadas suficientes variables) se encontrar resultados significativos. La cuestión es cómo interpretar estos resultados.

Es decir, se pueden barajar tantas hipótesis (unas más otras menos inspiradas en la bibliografía pertinente) que probablemente se encuentre algo significativo (no en el sentido literal de rechazar un SEM) que sea interprensible en un sentido psicológico. Por lo tanto, mi consejo a cualquiera que haga esto sería doble:

  1. Destacar el problema de la interpretación causal de estos diseños. No soy un experto en esto, pero sé que un diseño totalmente transversal difícilmente puede interpretarse como causal, independientemente de lo intuitivamente plausible que pueda sonar. Para las interpretaciones causales se necesitan diseños más avanzados, como los diseños de retardo cruzado o similares. Creo que los trabajos de Shadish, Cook y Campbell (o al menos algunos de ellos) son una buena fuente para profundizar en estos temas.
  2. Insistir en la responsabilidad individual y la ética científica. Si ves que tu idea inicial no está respaldada por los datos, el siguiente paso natural es inspeccionar los datos más a fondo. Sin embargo, nunca deberá confiar en HARKing (Formular hipótesis después de conocer los resultados; Kerr, 1998 Véase también Maxwell, 2004 ). Es decir, debería insistir en que hay una delgada línea entre una adaptación razonable de sus hipótesis dados los datos y la selección de resultados significativos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X