9 votos

Interacción en el modelo lineal generalizado

Tengo 2 variables continuas como predictores y la interacción entre ellas, así que 3 efectos en total (cuando centro mis predictores sólo la interacción es significativa). Estoy utilizando un modelo logit binario, salvo que he fijado el valor del número de ensayos en 20, para mi variable dependiente. Mi problema tiene que ver con comprender mejor la naturaleza de la interacción. Sé que en los modelos lineales generalizados la interacción es más compleja en comparación con el modelo lineal debido a la función de enlace. He leído que la interpretación del signo de las estimaciones de los parámetros es muy limitada, así que estoy tratando de encontrar una manera de comprender mejor la interacción, y también sería bueno graficarla. Por desgracia, sólo dispongo de SPSS. Jeff Gill ( http://www.artsci.wustl.edu/~jgill/papers/interactions3.pdf ) escribió sobre un método llamado primeras diferencias que parece muy similar al comando inteff de stata. Si alguien pudiera decirme cómo entender y probar la interacción en un modelo lineal generalizado usando spss o cálculos manuales estaría eternamente agradecido.

12voto

Sean Hanley Puntos 2428

En general, la existencia de un interacción significa que el efecto de una variable depende en el valor de la otra variable con la que interactúa. Si no hay interacción, el valor de la otra variable no importa .

Esto es más fácil de entender en el caso de la regresión lineal. Imaginemos que estamos estudiando la estatura adulta (digamos a los 25 años) de un niño a partir de la estatura adulta del padre. Además, incluimos el sexo como una variable de predicción adicional, ya que los hombres y las mujeres difieren considerablemente en la altura adulta. Imaginemos que no hay interacción entre estas dos variables (lo que puede ser cierto, al menos en una primera aproximación). Entonces podríamos representar nuestro modelo simplemente como dos líneas en un gráfico de dispersión de los datos. Tal vez queramos utilizar colores o símbolos/estilos de línea diferentes para los hombres y las mujeres, pero en cualquier caso veríamos una nube de puntos con forma de balón de fútbol (o de rugby, dependiendo de dónde vivas) con dos líneas paralelas que la atraviesan. Lo importante es que las líneas son paralelas; si alguien te preguntara cuál sería el efecto de que el padre fuera 1 pulgada (1 cm) más alto, responderías con $\beta_{\text{height}}$ . Si además le preguntaran cuál sería el efecto si el niño fuera varón o mujer, usted respondería: "que no importa se esperaría que fuesen $\beta_{\text{height}}$ más alto como adulto de cualquier manera". Eso es porque las líneas son paralelas (con la misma pendiente, $\beta_{\text{height}}$ ) / no hay interacción.

Imaginemos ahora el caso de la ansiedad en el rendimiento de los exámenes al examinar dos poblaciones: personas emocionalmente estables frente a personas emocionalmente inestables. Imaginemos que existe una interacción tal que las personas emocionalmente inestables se ven más afectadas por la ansiedad. Entonces, si trazamos el modelo de forma similar, veríamos dos líneas que son no paralelo. Una línea (que representa a los individuos emocionalmente estables) podría tener una pendiente descendente gradual, mientras que la otra línea (que representa a los estudiantes inestables) podría moverse hacia abajo mucho más rápidamente. Si hubiéramos utilizado la codificación de celdas de referencia, con los individuos estables como categoría de referencia, el modelo de regresión ajustado podría ser: $$ \text{test performance}=\beta_0 + \beta_1\text{anxiety} + \beta_2\text{unstable} + \beta_3\text{anxiety}*\text{unstable} $$ En este caso, la pendiente de la primera línea sería $\beta_\text{anxiety}$ (ya que $\text{unstable}$ sería igual a 0), pero la pendiente de la segunda línea sería $\beta_1+\beta_3$ . Si alguien le preguntara en qué medida se vería afectado el rendimiento en los exámenes si la ansiedad aumentara una unidad, tendría que decir que depende Los estudiantes emocionalmente estables obtendrían $\beta_1$ puntos menos, pero los individuos emocionalmente inestables bajarían $\beta_1+\beta_3$ puntos".

Esta es la esencia de lo que es una interacción. Además, estos ejemplos ilustran la necesidad de interpretar sólo efectos simples cuando existen interacciones, y el valor de utilizar gráficos de su modelo para facilitar la comprensión.


Con un modelo lineal generalizado la situación es esencialmente la misma, pero es posible que haya que tener en cuenta la complejidad adicional de la función de enlace (una transformación no lineal), dependiendo de qué escala que desea utilizar para hacer su interpretación. Consideremos el caso de la regresión logística, hay (al menos) tres escalas disponibles: Las betas existen en la escala logit (log odds), mientras que $\pi$ (la probabilidad de "éxito") sólo existe en el intervalo $(0,1)$ y se comporta de forma muy diferente; además, las probabilidades se encuentran entre ellas. Por tanto, hay que elegir cuál de ellas se quiere utilizar para interpretar el modelo. Por ejemplo, con respecto a las probabilidades logarítmicas, el modelo es lineal, y todo puede entenderse igual que lo anterior.

Si se utilizan las probabilidades, se pueden obtener ratios de probabilidades exponenciando las betas. Por ejemplo, si no hay interacción, el odds ratio asociado a un aumento de una unidad en $X_1$ es $\exp(\beta_1)$ . Esta sería también la odds ratio de la categoría de referencia (como los estudiantes emocionalmente estables anteriores) si hubiera una interacción con una variable dicotómica, pero la categoría de contraste se asociaría con una odds ratio de $\exp(\beta_1)*\exp(\beta_2)$ .

Por desgracia, ninguno de los dos es muy intuitivo para la gente, y la transformación no lineal (la función de enlace) complica la vida. Es importante reconocer que esto no es específico de las interacciones; el cambio en la probabilidad de "éxito" asociado al aumento de $X$ en una unidad nunca es lo mismo que (digamos) disminuir $X$ en una unidad (excepto en el caso especial de que $x_i$ está asociada a $\pi=.5$ ). En otras palabras, el cambio en la probabilidad asociado a un cambio de una unidad en $X$ depende del punto de partida (en este sentido, quizás se podría decir metafóricamente que interactúa consigo mismo). La mejor manera de determinar el cambio de probabilidad asociado al paso de un nivel de $X$ a otro, es introducir esos niveles, resolver la ecuación de regresión para $\hat\pi$ y luego restar. Lo mismo ocurre si tienes más de una variable, pero no hay "interacción" con la variable en cuestión. No se trata de nada especial, sino que el 'punto de partida' depende también de las otras variables. De nuevo, la mejor manera de determinar el cambio de probabilidad sería resolver $\hat\pi$ en ambos lugares y restar.


Interacciones en un GLiM también deberían ser tratados de forma similar. Es mejor no interpretar los efectos de interacción, sino sólo los efectos simples (es decir, el efecto de $X_1$ en $Y$ sosteniendo $X_2$ constante). Además, es mejor superponer los gráficos de los valores predichos (por ejemplo, cuando $X_2=0$ frente a cuando $X_2=1$ ) en un gráfico de dispersión de sus datos. Ahora, para una regresión logística, a menudo es difícil obtener un gráfico decente de sus datos, ya que los puntos son todos 0 y 1, por lo que puede optar por dejarlos fuera. Sin embargo, un gráfico de las dos curvas suele ser lo mejor que se puede utilizar. Después de tener el gráfico, una descripción cualitativa (verbal) suele ser fácil (por ejemplo, "las probabilidades no empiezan a alejarse de 0 hasta que los niveles de $X_1$ y aún así, subir más despacio").

Su situación es quizás un poco más complicada, porque tiene dos variables continuas, en lugar de una continua y otra dicotómica. Sin embargo, esto no es un problema. Normalmente, en esta situación, la gente pensará principalmente en términos de una de las variables predictoras; entonces puede trazar la relación entre esa variable y $Y$ en varios niveles del otro predictor. Si hay niveles teóricamente significativos, podría usarlos, si no, podría usar la media y +/- 1 SD. Si no tiene preferencia por una de las variables, podría lanzar una moneda al aire, o trazarla de ambas maneras y ver cuál será más fácil de trabajar.

No sé si el SPSS le permitirá hacer esos gráficos, pero si no puede encontrar una manera, deberían ser fáciles de hacer manualmente en Excel.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X