12 votos

Regresión moderada: ¿Por qué calculamos un término *producto* entre los predictores?

Los análisis de regresión moderada se utilizan a menudo en las ciencias sociales para evaluar la interacción entre dos o más predictores/covariables.

Normalmente, con dos variables predictoras, se aplica el siguiente modelo:

$Y = _0 + _1*X + _2*M + _3*XM + e$

Obsérvese que la prueba de la moderación se operativiza mediante el término del producto $XM$ (la multiplicación entre la variable independiente $X$ y la variable moderadora $M$ ). Mi pregunta fundamental es: ¿por qué calculamos realmente un término de producto entre $X$ y $M$ ? ¿Por qué no, por ejemplo, la diferencia absoluta $|M-X|$ o sólo la suma $X + M$ ?

Curiosamente, Kenny alude a esta cuestión aquí http://davidakenny.net/cm/moderation.htm diciendo: "Como se verá, la prueba de la moderación no siempre se operativiza con el término de producto XM" pero no se da ninguna otra explicación. Una ilustración o prueba formal sería esclarecedora, supongo/espero.

15voto

jldugger Puntos 7490

Un "moderador" afecta a los coeficientes de regresión de $Y$ contra $X$ : pueden cambiar a medida que cambian los valores del moderador. Así, en toda la generalidad, el modelo de regresión simple de la moderación es

$$\mathbb{E}(Y) = \alpha(M) + \beta(M)X$$

donde $\alpha$ y $\beta$ son funciones del moderador $M$ en lugar de constantes que no se ven afectadas por los valores de $M$ .

Con el mismo espíritu con el que la regresión se basa en un aproximación lineal de la relación entre $X$ y $Y$ podemos esperar que ambos $\alpha$ y $\beta$ son, al menos aproximadamente, funciones lineales de $M$ en toda la gama de valores de $M$ en los datos:

$$\eqalign{ \mathbb{E}(Y) &= \alpha_0 + \alpha_1 M + O(M^2) + (\beta_0 + \beta_1 M + O(M^2))X \\ &= \alpha_0 + \beta_0 X + \alpha_1 M + \beta_1 MX + O(M^2) + O(M^2)X. }$$

Si se eliminan los términos no lineales ("big-O"), con la esperanza de que sean demasiado pequeños para importar, se obtiene el modelo de interacción multiplicativo (bilineal)

$$\mathbb{E}(Y) = \alpha_0 + \beta_0 X + \alpha_1 M + \beta_1 MX.\tag{1}$$

Esta derivación sugiere una interesante interpretación de los coeficientes: $\alpha_1$ es la velocidad a la que $M$ cambia la interceptar mientras que $\beta_1$ es la velocidad a la que $M$ cambia la pendiente . ( $\alpha_0$ y $\beta_0$ son la pendiente y el intercepto cuando $M$ se pone (formalmente) a cero). $\beta_1$ es el coeficiente del "término producto" $MX$ . Responde a la pregunta de esta manera:

Modelamos la moderación con un término de producto $MX$ cuando esperamos que el moderador $M$ tendrá (aproximadamente, en promedio) una relación lineal con la pendiente de $Y$ vs $X$ .


Es interesante que esta derivación señale el camino hacia una extensión natural del modelo, que podría sugerir formas de comprobar la bondad del ajuste. Si no le preocupa la no linealidad en $X$ --usted sabe o asume que el modelo $(1)$ es preciso, entonces se querrá ampliar el modelo para dar cabida a los términos que se han eliminado:

$$ \mathbb{E}(Y) = \alpha_0 + \beta_0 X + \alpha_1 M + \beta_1 MX + \alpha_2M^2 + \beta_2 M^2X. $$

Comprobación de la hipótesis $\alpha_2=\beta_2=0$ evalúa la bondad del ajuste. Estimación de $\alpha_2$ y $\beta_2$ podría indicar de qué manera el modelo $(1)$ podría ser necesario ampliarlo: para incorporar la no linealidad en $M$ (cuando $\alpha_2 \ne 0$ ) o una relación moderadora más complicada (cuando $\beta_2 \ne 0$ ) o posiblemente ambos. (Tenga en cuenta que esta prueba pas ser sugerido por una expansión en serie de potencias de una función genérica $f(X,M)$ .)


Por último, si se descubre que el coeficiente de interacción $\beta_1$ no fueron significativamente diferentes de cero, pero que el ajuste no es lineal (como lo demuestra un valor significativo de $\beta_2$ ), entonces se concluiría que (a) hay moderación pero (b) no está modelada por un $MX$ sino por algunos términos de orden superior que empiezan por $M^2X$ . Este podría ser el tipo de fenómeno al que se refería Kenny.

11voto

skiabox Puntos 167

Si utilizas la suma de predictores para modelar su interacción, tu ecuación sería:

$$ \begin{eqnarray} Y &=& \beta_0 + \beta_1X + \beta_2M + \beta_3(X + M) + e\\ &=& \beta_0 + \beta_1X + \beta_2M + \beta_3X + \beta_3M + e\\ &=& \beta_0 + (\beta_1 + \beta_3)X + (\beta_2 + \beta_3)M + e \\ &=& \beta_0 + \beta_1'X + \beta_2'M + e \end{eqnarray} $$

donde $\beta_1'=\beta_1+\beta_3$ y $\beta_2'=\beta_2+\beta_3$ . Por lo tanto, su modelo no tendría ninguna interacción. Evidentemente, este no es el caso del producto.

Recordemos la definición del valor absoluto:

$$ |X-M| = \begin{cases} X-M, & X \geq M\\ M-X, & X < M \end{cases} $$

Aunque se puede reducir el modelo $\beta_0 + \beta_1X + \beta_2M + \beta_3|X-M| + e$ a la que sólo tiene $X$ y $M$ términos, utilizando la def. de $|X-M|$ El valor absoluto es una "forma especializada de moderación que probablemente no sea realista en muchas situaciones", como se señala en el comentario siguiente.

2 votos

En realidad, incluir un $|X-M|$ término es demostrablemente una forma de moderación: el valor de $M$ cambia $\beta_2$ . Sin embargo, es una forma limitada y especializada de moderación que probablemente no sea realista en muchas situaciones. No es correcto decir que tal modelo tiene "sólo efectos principales".

1 votos

Sí, tienes razón, $|X-M|$ es una forma de moderación, me dejé llevar por la transformación y editaré la respuesta en consecuencia. Gracias por señalarlo.

0 votos

@Milos: Tu ejemplo sobre la suma de predictores me ha abierto los ojos, de forma un tanto embarazosa, debo decir, porque ya debería haberme dado cuenta de las implicaciones matemáticas ;) whuber: Por lo que tengo entendido, el valor absoluto sólo es útil cuando ambas variables predictoras se miden en las mismas unidades (por ejemplo, dos pruebas psicométricas, utilizando la misma métrica, como las puntuaciones z o las puntuaciones T). La diferencia absoluta entre X y M es un útil aunque no es la única posible (es decir, también se podría utilizar el término prodcut).

6voto

Aksakal Puntos 11351

No encontrarás una prueba formal para usar el moderador multiplicativo. Puedes apoyar este enfoque por otros medios. Por ejemplo, mira la expansión Taylor-MacLaurin de una función $f(X,M)$ :

$$f(X,M)=f(0,0)+\frac{\partial f(0,0)}{\partial T} T+\frac{\partial f(0,0)}{\partial M} M+\frac{\partial^2 f(0,0)}{\partial T\partial M} TM +\frac{\partial^2 f(0,0)}{2\partial T^2} T^2 +\frac{\partial^2 f(0,0)}{2\partial M^2} M^2\dots$$

Si se introduce una función de esta forma $f(X,M)=\beta_0+\beta_XX+\beta_MM+\beta_{XM}XM$ en la ecuación de Taylor, se obtiene esto:

$$f(X,M)=\beta_0+\beta_XX +\beta_MM +\beta_{XM}XM$$

Por lo tanto, el razonamiento aquí es que esta forma multiplicativa particular de la moderación es básicamente una aproximación de Taylor de segundo orden de una relación de moderación genérica $f(X,M)$

ACTUALIZACIÓN: si incluyes términos cuadráticos, como sugirió @whuber entonces esto sucederá: $$g(X,M)=b_0+b_XX +b_MM +b_{XM}XM+b_{X2}X^2 +b_{M2}M^2$$ conecta esto a Taylor: $$g(X,M)=b_0+b_XX +b_MM +b_{XM}XM +b_{X2}X^2 +b_{M2}M^2$$

Esto demuestra que nuestro nuevo modelo $g(X,M)$ con términos cuadráticos corresponde a una aproximación completa de segundo orden de Taylor, a diferencia del modelo original de moderación $f(X,M)$ .

0 votos

Dado que la base de tu argumento es la expansión de Taylor, ¿por qué no has incluido también los otros dos términos cuadráticos $X^2$ y $M^2$ ? Es cierto, no son formas de moderación, pero su inclusión en el modelo suele afectar a $\beta_{XM}$ .

0 votos

@whuber, decidí mantener el post corto - esa es la razón principal. De lo contrario, empecé a escribir sobre mi preferencia de incluir términos de segundo orden siempre que tengas un término cruzado, y luego lo corté.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X