5 votos

ANOVA y regresión dan resultados opuestos en R

Llevé a cabo un experimento en un diseño factorial: medí la luz (PAR) en tres de los herbívoros los tratamientos, así como seis de los nutrientes de los tratamientos. El experimento fue bloqueado.

He corrido el modelo lineal de la siguiente manera (se puede descargar los datos de mi sitio web para replicar)

dat <- read.csv('http://www.natelemoine.com/testDat.csv')
mod1 <- lm(light ~ Nutrient*Herbivore + BlockID, dat)

Los gráficos de residuos se ven bastante bien

par(mfrow=c(2,2))
plot(mod1)

Cuando miro en la tabla ANOVA, veo principales efectos de los Nutrientes y de los Herbívoros.

anova(mod1)

Analysis of Variance Table 

Response: light 
                    Df  Sum Sq Mean Sq F value    Pr(>F)     
Nutrient             5  4.5603 0.91206  7.1198 5.152e-06 *** 
Herbivore            2  2.1358 1.06791  8.3364 0.0003661 *** 
BlockID              9  5.6186 0.62429  4.8734 9.663e-06 *** 
Nutrient:Herbivore  10  1.7372 0.17372  1.3561 0.2058882     
Residuals          153 19.5996 0.12810                       
--- 
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Sin embargo, la regresión tabla muestra no significativa efectos principales y las interacciones significativas.

summary(mod1)

Call: 
lm(formula = light ~ Nutrient * Herbivore + BlockID, data = dat) 

Residuals: 
     Min       1Q   Median       3Q      Max  
-0.96084 -0.19573  0.01328  0.24176  0.74200  

Coefficients: 
                           Estimate Std. Error t value Pr(>|t|)     
(Intercept)                1.351669   0.138619   9.751  < 2e-16 *** 
Nutrientb                  0.170548   0.160064   1.066  0.28833     
Nutrientc                 -0.002172   0.160064  -0.014  0.98919     
Nutrientd                 -0.163537   0.160064  -1.022  0.30854     
Nutriente                 -0.392894   0.160064  -2.455  0.01522 *   
Nutrientf                  0.137610   0.160064   0.860  0.39129     
HerbivorePaired           -0.074901   0.160064  -0.468  0.64049     
HerbivoreZebra            -0.036931   0.160064  -0.231  0.81784     
... 
Nutrientb:HerbivorePaired  0.040539   0.226364   0.179  0.85811     
Nutrientc:HerbivorePaired  0.323127   0.226364   1.427  0.15548     
Nutrientd:HerbivorePaired  0.642734   0.226364   2.839  0.00513 **  
Nutriente:HerbivorePaired  0.454013   0.226364   2.006  0.04665 *   
Nutrientf:HerbivorePaired  0.384195   0.226364   1.697  0.09168 .   
Nutrientb:HerbivoreZebra   0.064540   0.226364   0.285  0.77594     
Nutrientc:HerbivoreZebra   0.279311   0.226364   1.234  0.21913     
Nutrientd:HerbivoreZebra   0.536160   0.226364   2.369  0.01911 *   
Nutriente:HerbivoreZebra   0.394504   0.226364   1.743  0.08338 .   
Nutrientf:HerbivoreZebra   0.324598   0.226364   1.434  0.15362     
--- 
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.3579 on 153 degrees of freedom 
Multiple R-squared:  0.4176,    Adjusted R-squared:  0.3186  
F-statistic: 4.219 on 26 and 153 DF,  p-value: 8.643e-09 

Sé que esta pregunta ha sido previamente formuladas y contestadas en varios puestos. En los mensajes anteriores, la cuestión gira en torno a los diferentes tipos de SS usado en el análisis de la varianza() y lm(). Sin embargo, no creo que es el problema aquí. Primero de todo, el diseño es equilibrado:

with(dat, tapply(light, list(Nutrient, Herbivore), length))

En segundo lugar, mediante el análisis de Varianza() la opción de no cambiar la tabla anova. Esto no es una sorpresa, ya que el diseño es equilibrado.

Anova(mod1, type=2)
Anova(mod1, type=3)

Cambio del contraste no cambia los resultados (cualitativamente). Todavía tengo bastante hacia atrás intepretations de anova() vs summary().

options(contrasts=c("contr.sum","contr.poly"))
mod2 <- lm(light ~ Nutrient*Herbivore + BlockID, dat)
anova(mod2)
summary(mod2)

Estoy confundido porque todo lo que he leído en la regresión no estar de acuerdo con ANOVA implica diferencias en la forma R utiliza SS para summary() y anova() funciones. Sin embargo, en el diseño equilibrado, el SS tipos son equivalentes, y los resultados no cambian. ¿Cómo puedo tener completamente opuestas interpretaciones dependiendo de la salida que yo uso?

3voto

Gmaster Puntos 21

Esencialmente, la pregunta es, ¿cómo es que uno de los coeficientes en el modelo lineal es significativamente diferente de 0, pero ANOVA muestra ningún efecto significativo y viceversa.

Para esto, veamos un sencillo ejemplo.

set.seed( 123 )
data <- data.frame( x= rnorm( 100 ), g= rep( letters[1:10], each= 10 ) )
data$x[ data$g == "d" ] <- data$x[ data$g == "d" ] + 0.5
boxplot( x ~ g, data )
l <- lm( x ~ 0 + g, data )
summary( l )
anova( l )

Se puede ver que no es sólo un grupo (d) que sobresale de la línea (tiene un coeficiente significativamente diferente de cero). Sin embargo, dado que los otros nueve grupos no muestran un efecto, el análisis de varianza devuelve $p > 0.1$. Sin embargo, vamos a eliminar algunos de los grupos:

data2 <- data[ data$g %in% c( "a", "d" ), ]
anova( lm( x ~ 0 + g, data2 )

devuelve

          Df  Sum Sq Mean Sq F value  Pr(>F)  
g          2  6.8133  3.4066  5.7363 0.01182 *
Residuals 18 10.6898  0.5939 

ANOVA considera el total de la varianza dentro y entre los grupos. En el primer caso (10 grupos) de la varianza entre los grupos es menor debido a los muchos grupos con ningún efecto. En el segundo, sólo hay dos grupos, y entre todos los grupos de la varianza viene de la diferencia entre estos dos grupos.

¿Y a la inversa? Esto es más fácil: imagina tres grupos con los medios igual a -1, 0, 1. Total promedio es de 0. Cada grupo por separado no tiene necesariamente una diferencia significativa desde 0, pero no hay suficiente diferencia entre el grupo 1 y de 3 a cuenta para el total significativo entre el grupo de la varianza.

2voto

Stew Puntos 161

Lo que está pasando aquí es un problema de las comparaciones múltiples. Usted tiene 10 df para la interacción, de modo que usted puede mirar a las 10 de la independiente de los efectos de interacción (aunque sospecho que el 10 está viendo, es decir, el 10 de regresión de efectos, no son independientes).

El 10 df interacción de la prueba será significativo, en algún nivel, si y sólo si Scheffe la prueba de comparaciones múltiples puede encontrar un efecto de interacción que es significativo en ese nivel. Así que el uso de Scheffe del método que usted no sería capaz de encontrar una interacción coeficiente de regresión es significativo. Lo que se informe como los valores de P para los coeficientes de regresión son equivalentes a mirar de Fisher LSD múltiples métodos de comparación, que es bastante más fácil a declarar importancia. Así que, básicamente, tiene un método que es declarar sin efectos, y otro que se encuentra a unos pocos, pero ya que son métodos diferentes que no es de extrañar. Usted necesita decidir qué tipo de normas que desea utilizar. (Un más sofisticado uso de LSD no mirar individual de los coeficientes, a menos que la general de la prueba fue significativa.)

Otra manera de pensar acerca de esto es que el 10df la interacción de la prueba es de un promedio de diez 1df pruebas, y si los efectos de la interacción no son muy llamativos pueden perderse en el proceso de calcular el promedio. Sin embargo, si se analiza de forma individual, puede ver su efecto.

No voy a entrar en los efectos principales problemas. Pero creo que lo que R está diciendo más fuertemente sobre las interacciones (P=.00513) es que el efecto diferencial de la utilización de Nutrientes y d cambios dependiendo de si se utiliza el sin nombre de Herbívoros o los pares de Herbívoro. Si el efecto diferencial de una y d puede cambiar, entonces tiene que haber algún efecto para el par a y d, sin embargo el coeficiente de regresión de la Tuerca. d (lo que realmente se ve en su diferencia), PARECE estar diciendo que no hay ninguno, pero sólo parece estar diciendo que la causa principal de los efectos de la presencia de la interacción obtener tan intrincado que no vale la pena tratar de averiguar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X