Espero que alguien aquí pueda responderme a esta pregunta sobre la naturaleza de la descomposición de las sumas de los cuadrados de un modelo de efectos mixtos ajustado con lmer
(de la lme4 paquete R).
En primer lugar, debo decir que soy consciente de la controversia que suscita el uso de este enfoque y que, en la práctica, sería más probable que utilizara una TRL con muestreo para comparar modelos (como sugiere Faraway, 2006). Sin embargo, no sé cómo replicar los resultados, así que, por mi propia cordura, pensé en preguntar aquí.
Básicamente, me estoy familiarizando con el uso de modelos de efectos mixtos ajustados por el lme4
paquete. Sé que se puede utilizar el anova()
para ofrecer un resumen de las pruebas secuenciales de los efectos fijos en el modelo. Por lo que sé, esto es lo que Faraway (2006) denomina enfoque de "cuadrados medios esperados". Lo que quiero saber es cómo se calculan las sumas de los cuadrados.
Sé que podría tomar los valores estimados de un modelo particular (usando coef()
), asumir que son fijos, y luego hacer pruebas utilizando las sumas de los cuadrados de los residuos del modelo con y sin los factores de interés. Esto está bien para un modelo que contenga un único factor intra-sujeto. Sin embargo, cuando se implementa un diseño de parcela dividida, el valor de las sumas de los cuadrados que obtengo es equivalente al valor producido por R utilizando aov()
con una adecuada Error()
designación. Sin embargo, esto es no la misma que las sumas de los cuadrados producidos por el anova()
en el objeto modelo, a pesar de que los coeficientes F son los mismos.
Por supuesto, esto tiene todo el sentido, ya que no es necesario que el Error()
estratos en un modelo mixto. Sin embargo, esto debe significar que las sumas de los cuadrados se penalizan de alguna manera en un modelo mixto con el fin de proporcionar cocientes F adecuados. ¿Cómo se consigue esto? ¿Y cómo corrige el modelo de alguna manera la suma de cuadrados entre parcelas pero no corrige la suma de cuadrados dentro de la parcela? Evidentemente, esto es algo que es necesario para un ANOVA clásico de parcela dividida que se logró designando diferentes valores de error para los diferentes efectos, así que ¿cómo permite esto un modelo de efectos mixtos?
Básicamente, quiero ser capaz de replicar los resultados del anova()
aplicado a un objeto modelo lmer yo mismo para verificar los resultados y mi comprensión, sin embargo, en la actualidad puedo lograr esto para un diseño normal dentro de los sujetos, pero no para el diseño de parcela dividida y parece que no puedo averiguar por qué este es el caso.
Como ejemplo:
library(faraway)
library(lme4)
data(irrigation)
anova(lmer(yield ~ irrigation + variety + (1|field), data = irrigation))
Analysis of Variance Table
Df Sum Sq Mean Sq F value
irrigation 3 1.6605 0.5535 0.3882
variety 1 2.2500 2.2500 1.5782
summary(aov(yield ~ irrigation + variety + Error(field/irrigation), data = irrigation))
Error: field
Df Sum Sq Mean Sq F value Pr(>F)
irrigation 3 40.19 13.40 0.388 0.769
Residuals 4 138.03 34.51
Error: Within
Df Sum Sq Mean Sq F value Pr(>F)
variety 1 2.25 2.250 1.578 0.249
Residuals 7 9.98 1.426
Como puede verse, todos los coeficientes F coinciden. Las sumas de los cuadrados para la variedad también coinciden. Sin embargo, las sumas de los cuadrados para el riego no coinciden, aunque parece que el resultado de lmer está escalado. Entonces, ¿qué hace realmente el comando anova()?