2 votos

¿Cuándo es apropiado informar de las interacciones?

Tengo dos variables categóricas, A y B . Cada variable categórica tiene tres levels(0,1,2) . Hay una determinada variable dependiente P contra la que hago un gráfico y veo que hay una interacción entre A y B . En mi siguiente paso, hago un modelo cuando retrocedo sobre P con A*B ( model_interaction ). Cuando miro el resumen de este modelo veo que ciertos términos de interacción son significativos. Esta es mi pregunta, ¿es esto suficiente evidencia para decir que hay interacciones significativas?

¿Por qué pregunto esto?

Junto con el modelo de interacción, también hice un modelo lineal con A y B con una regresión de P ( model_linear ). Cuando comparé model_interaction y model_linear No encontré ninguna diferencia estadística entre los dos y también encontré que la puntuación AIC para model_linear era más bajo. Entonces, después de haber visto todo esto, ¿sigo diciendo que he encontrado interacciones significativas?

Sólo para resumir:

model_linear: P ~ A + B

model_interaction: P ~ A * B

Pruebas de interacción:

1) Parcelas que muestran una clara interacción.

2) El modelo con los términos de interacción tiene valores p significativos

Pruebas en contra:

1) El modelo de interacción no difiere significativamente del modelo lineal

2) El modelo lineal tiene una puntuación AIC más baja en comparación con el modelo de interacción.

¿Digo que hay interacciones o no?

2voto

avid Puntos 161

Creo que has cometido un error de programación. Al comparar dos lm s que son iguales excepto por la inclusión de un término de interacción, anova debe dar el mismo $p$ -valor como summary da para el término de interacción. Por ejemplo:

> coef(summary(lm(area ~ peri + shape * perm, data = rock)))["shape:perm",]
    Estimate   Std. Error      t value     Pr(>|t|) 
-10.71598140   4.84042362  -2.21385198   0.03219246 
> anova(lm(area ~ peri + shape + perm, data = rock), lm(area ~ peri + shape * perm, data = rock))
Analysis of Variance Table

Model 1: area ~ peri + shape + perm
Model 2: area ~ peri + shape * perm
  Res.Df      RSS Df Sum of Sq      F  Pr(>F)  
1     44 74326644                              
2     43 66721703  1   7604941 4.9011 0.03219 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

¿Ves cómo el número 0,03219 aparece en ambas salidas?

anova al menos para el caso de dos lm s, utiliza un $F$ -prueba, no una $χ^2$ y es efectivamente equivalente a la prueba $t$ -prueba utilizada por summary.lm .

En cuanto a la AIC, ha dicho:

El hecho de que estos dos [modelos] no sean significativamente diferentes no nos dice qué modelo es mejor que el otro. Para comprobar cuál es mejor he utilizado las puntuaciones AIC para comparar.

Es cierto que un resultado no significativo es poco informativo, pero no tiene sentido seguirlo con el AIC. La única razón para utilizar un $p$ -valor para la selección del modelo es si crees a priori que el modelo más simple es mejor y te quedas con él a menos que el modelo más complejo proporcione un aumento "suficiente" del ajuste. Por tanto, si se utiliza el enfoque de la prueba de significación y no se obtiene un resultado significativo, se debe utilizar el modelo más sencillo; fin de la historia. El AIC es un enfoque diferente con normas diferentes sobre cómo elegir un modelo. Utilice la prueba de significación o el AIC, pero no ambos. De ellos, el AIC es más sofisticado y probablemente sea mejor para cualquier propósito del mundo real.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X