Es válido para incluir una interacción bidireccional en un modelo sin incluir los efectos principales? Lo que si su hipótesis es sólo acerca de la interacción, ¿todavía necesita para incluir los efectos principales?
Respuestas
¿Demasiados anuncios?En mi experiencia, no sólo es necesario tener todos los órdenes inferiores de los efectos en el modelo cuando esté conectado a un mayor orden de los efectos, pero también es importante adecuadamente modelo (por ejemplo, permitiendo a ser no lineal) de los principales efectos que aparentemente no guardan relación con los factores en las interacciones de interés. Eso es debido a las interacciones entre x1 y x2 pueden stand-ins de efectos principales de x3 y x4. Interacciones a veces parecen ser necesarias debido a que son colineales con variables omitidas o se omite no lineales (por ejemplo, spline).
Usted pregunta si es siempre válida. Permítanme dar un ejemplo común, cuya elucidación puede sugerir otras aproximaciones analíticas para usted.
El ejemplo más simple de una interacción es un modelo con una variable dependiente a $Z$ y dos variables independientes $X$, $Y$ en la forma
$A$Z = \alpha + \beta' X + \gamma' Y + \delta' X Y + \varepsilon,$$
con $\varepsilon$ aleatorio término variable de tener cero expectativa, y el uso de los parámetros de $\alpha, \beta', \gamma',$ y $\delta'$. Es a menudo vale la pena comprobar si $\delta'$ se aproxima a $\beta \gamma'$, ya que una algebraicamente la expresión equivalente de la misma modelo
$A$Z = \alpha \left(1 + \beta X + \gamma Y + \delta X Y \right) + \varepsilon$$
$$= \alpha \left(1 + \beta X \right) \left(1 + \gamma Y \right) + \alpha \left( \delta \beta \gamma \right) X Y + \varepsilon$$
(donde $\beta = \alpha \beta$, etc).
De dónde, si no hay una razón para suponer $\left( \delta \beta \gamma \right) \sim 0$, se puede absorber en el término de error $\varepsilon$. Esto no sólo dar una "pura interacción", lo hace sin un término constante. Esto a su vez sugiere tomar logaritmos. Algunos heterocedasticidad en los residuos, es decir, una tendencia de los residuos asociados con los mayores valores de a $Z$ a ser mayor en valor absoluto que el promedio, también apuntan en esta dirección. Entonces, nos quieren explorar una formulación alternativa
$$\log(Z) = \log(\alpha) + \log(1 + \beta X) + \log(1 + \gamma Y) + \tau$$
con iid error aleatorio $\tau$. Además, si esperamos que $\beta X$ y $\gamma$ Y para ser grande en comparación con $1$, no les acaba de proponer el modelo
$$\log(Z) = \left(\log(\alpha) + \log(\beta) + \log(\gamma)\right) + \log(X) + \log(Y) + \tau$$
$$= \eta + \log(X) + \log(Y) + \tau.$$
Este nuevo modelo tiene un solo parámetro $\eta$ en lugar de los cuatro parámetros ($\alpha$, $\beta$, etc.) sujeto a una relación cuadrática ($\delta' = \beta \gamma'$), una simplificación considerable.
No estoy diciendo que esto es necesario, o incluso el único paso a tomar, pero yo soy lo que sugiere que este tipo algebraico de reordenamiento de la modelo es generalmente vale la pena considerar cuando interacciones solo parece ser significativo.
Algunas maneras excelentes para explorar modelos con interacción, especialmente con dos y tres variables independientes, aparecen en los capítulos 10 - 13 de Tukey EDA.
Mientras se dice a menudo en los libros de texto que uno nunca debe de incluir una interacción en un modelo sin los correspondientes efectos principales, sin duda, hay ejemplos donde esto haría perfecto sentido. Te voy a dar el ejemplo más simple que puedo imaginar.
Supongamos que los sujetos asignados aleatoriamente a dos grupos se midió dos veces, una vez en la línea de base (es decir, justo después de la aleatorización) y una vez después de que el grupo T recibido algún tipo de tratamiento, mientras que el grupo C no. A continuación, una de medidas repetidas de modelo para los datos incluyen un efecto principal para la medición de la ocasión (una variable ficticia que es 0 para la línea de base y 1 para el seguimiento) y un término de interacción entre el grupo dummy (0 para C, 1 para T) y el tiempo ficticio.
El modelo de interceptar, a continuación, las estimaciones de la media de la puntuación de los sujetos en la línea de base (independientemente del grupo están). El coeficiente para la medición de ocasión dummy que indica el cambio en el grupo control entre el basal y la de seguimiento. Y el coeficiente del término de la interacción indica cuánto más grande/más pequeño que el cambio fue en el grupo de tratamiento comparado con el grupo control.
Aquí, no es necesario incluir el efecto principal de grupo, porque en la línea de base, los grupos son equivalentes, por definición, debido a la aleatorización.
Uno podría argumentar que el efecto principal de grupo debe ser incluido, por lo que, en caso de que la aleatorización no pudo, esto será revelada por el análisis. Sin embargo, lo que es equivalente a la prueba de la línea de base medio de los dos grupos, el uno contra el otro. Y hay un montón de gente que fruncir el ceño a las pruebas para diferencias de base en estudios aleatorizados (por supuesto, también hay muchos a los que les es útil, pero este es otro tema).
La razón para mantener los efectos principales en el modelo es de identificabilidad. Por lo tanto, si el propósito es la inferencia estadística acerca de cada uno de los efectos, usted debe tener los efectos principales en el modelo. Sin embargo, si el modelado de propósito es únicamente para predecir nuevos valores, entonces es perfectamente legítimo para incluir sólo la interacción si que mejora la precisión predictiva.
esto está implícito en muchas de las respuestas que otros han dado pero el simple hecho es que los modelos w/ un producto plazo, pero w/ & w/o el moderador & predictor son sólo diferentes modelos. Averiguar lo que significa cada una , dado el proceso de modelado y si un modelo w/o el moderador & predictor hace más sentido que le da a su teoría o hipótesis. La observación de que el producto plazo es muy importante, pero sólo cuando moderador & predictor no están incluidos no le dice nada (salvo, quizás, que son la pesca alrededor de "significado") w/o una explicación convincente de por qué tiene sentido dejarlos fuera.