33 votos

¿Por qué ANOVA y regresión lineal da diferentes $p$valor en caso de considerar la interacción entre variable?

Yo estaba tratando de encajar uno de los datos de series de tiempo (sin repeticiones) utilizando el modelo de regresión. Los datos se ve como sigue:

> xx.2
          value time treat
    1  8.788269    1     0
    2  7.964719    6     0
    3  8.204051   12     0
    4  9.041368   24     0
    5  8.181555   48     0
    6  8.041419   96     0
    7  7.992336  144     0
    8  7.948658    1     1
    9  8.090211    6     1
    10 8.031459   12     1
    11 8.118308   24     1
    12 7.699051   48     1
    13 7.537120   96     1
    14 7.268570  144     1

Debido a la falta de replica, yo tratar el tiempo como variable continua. La columna de "tratar" muestra el caso y los datos de control, respectivamente.

En primer lugar, yo encajaba en el modelo de "valor = tiempo*tratar" con "lm" en R:

summary(lm(value~time*treat,data=xx.2))

Call:
lm(formula = value ~ time * treat, data = xx.2)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.50627 -0.12345  0.00296  0.04124  0.63785 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  8.493476   0.156345  54.325 1.08e-13 ***
time        -0.003748   0.002277  -1.646   0.1307    
treat       -0.411271   0.221106  -1.860   0.0925 .  
time:treat  -0.001938   0.003220  -0.602   0.5606    

El pvalue de tiempo y tratar no es significativo.

Mientras que con anova, me dieron diferentes resultados:

 summary(aov(value~time*treat,data=xx.2))
            Df Sum Sq Mean Sq F value Pr(>F)  
time         1 0.7726  0.7726   8.586 0.0150 *
treat        1 0.8852  0.8852   9.837 0.0106 *
time:treat   1 0.0326  0.0326   0.362 0.5606  
Residuals   10 0.8998  0.0900                 

El pvalue por el tiempo y tratar cambiado.

Con la regresión lineal, si estoy en lo cierto, significa que el tiempo y el tratamiento no tiene influencia significativa en el valor, pero con ANOVA, significa que el tiempo y el tratamiento tiene una influencia significativa en el valor.

Podría alguien explicarme por qué hay diferencia en estos dos métodos, y cual usar?

31voto

ykaganovich Puntos 8497

Peter Ellis respuesta es excelente, pero hay otro punto de realizarse. El $t$-estadístico de prueba (y su $p$-valor) es una prueba de si $\beta = 0$. El $F$-prueba en la anova() impresión es si se añade la variable reduce significativamente la suma de cuadrados residual.

El $t$-prueba es el fin de independiente, mientras que el $F$-examen no. Por lo tanto Pedro sugerencia de que se trate de las variables en los diferentes órdenes. También es posible que las variables significativas en una prueba puede no ser significativa en la otra (y viceversa).

Mi sentido (y otros colaboradores son bienvenidos para corregir mí) es que cuando usted está tratando de predecir los fenómenos (como en los sistemas de aplicación), que son los más interesados en la reducción de la varianza con el menor número de predictores, y por tanto de la anova() de resultados. Si usted está tratando de establecer el efecto marginal de $X$$y$, sin embargo, usted va a estar más preocupado con el significado de su particular $\beta$ de interés, y todas las otras variables se acaba de control de explicaciones alternativas a su revisores tratará de encontrar.

25voto

Ted Puntos 854

El ajuste para el lm() y aov() son idénticas, pero la presentación de informes es diferente. Las pruebas de t son el efecto marginal de las variables en cuestión, dada la presencia de todas las otras variables. El F pruebas son secuenciales, de modo que la prueba de la importancia del tiempo en la presencia de la nada, pero la intersección, de tratar con la presencia de la nada, pero la intercepción y el tiempo, y de la interacción en la presencia de todos los anteriores.

Suponiendo que usted está interesado en la importancia de tratar, yo sugiero que el ajuste de dos modelos, uno con y otro sin, comparar los dos poniendo ambos modelos de anova(), y el uso que la prueba de F. Esto pondrá a prueba el tratamiento y la interacción simultánea.

Considere lo siguiente:

> xx.2 <- as.data.frame(matrix(c(8.788269, 1, 0,
+ 7.964719, 6, 0,
+ 8.204051, 12, 0,
+ 9.041368, 24, 0,
+ 8.181555, 48, 0,
+ 8.041419, 96, 0,
+ 7.992336, 144, 0,
+ 7.948658, 1, 1,
+ 8.090211, 6, 1,
+ 8.031459, 12, 1,
+ 8.118308, 24, 1,
+ 7.699051, 48, 1,
+ 7.537120, 96, 1,
+ 7.268570, 144, 1), byrow=T, ncol=3))
> names(xx.2) <- c("value", "time", "treat")
> 
> mod1 <- lm(value~time*treat, data=xx.2)
> anova(mod1)
Analysis of Variance Table

Response: value
           Df  Sum Sq Mean Sq F value  Pr(>F)  
time        1 0.77259 0.77259  8.5858 0.01504 *
treat       1 0.88520 0.88520  9.8372 0.01057 *
time:treat  1 0.03260 0.03260  0.3623 0.56064  
Residuals  10 0.89985 0.08998                  
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 
> mod2 <- aov(value~time*treat, data=xx.2)
> anova(mod2)
Analysis of Variance Table

Response: value
           Df  Sum Sq Mean Sq F value  Pr(>F)  
time        1 0.77259 0.77259  8.5858 0.01504 *
treat       1 0.88520 0.88520  9.8372 0.01057 *
time:treat  1 0.03260 0.03260  0.3623 0.56064  
Residuals  10 0.89985 0.08998                  
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 
> summary(mod2)
            Df Sum Sq Mean Sq F value Pr(>F)  
time         1 0.7726  0.7726   8.586 0.0150 *
treat        1 0.8852  0.8852   9.837 0.0106 *
time:treat   1 0.0326  0.0326   0.362 0.5606  
Residuals   10 0.8998  0.0900                 
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 
> summary(mod1)

Call:
lm(formula = value ~ time * treat, data = xx.2)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.50627 -0.12345  0.00296  0.04124  0.63785 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  8.493476   0.156345  54.325 1.08e-13 ***
time        -0.003748   0.002277  -1.646   0.1307    
treat       -0.411271   0.221106  -1.860   0.0925 .  
time:treat  -0.001938   0.003220  -0.602   0.5606    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.3 on 10 degrees of freedom
Multiple R-squared: 0.6526,     Adjusted R-squared: 0.5484 
F-statistic: 6.262 on 3 and 10 DF,  p-value: 0.01154 

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X