Aprendí en la escuela primaria estadísticas que, con un modelo lineal general, para las inferencias para ser válidas, las observaciones deben ser independientes. Cuando la agrupación se produce, la independencia no puede sostener que conduce a la inferencia no válida a menos que esto se tiene en cuenta. Una manera de dar cuenta de como la agrupación es mediante el uso de modelos mixtos. Me gustaría encontrar un ejemplo de conjunto de datos simulados o no, que demuestra claramente. He intentado utilizar uno de los conjuntos de datos de muestra en la UCLA sitio para el análisis agrupado de los datos de
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
A menos que me estoy perdiendo algo, estos resultados son lo suficientemente similares como para que yo no creo que la salida de lm()
no es válido. He mirado en algunos otros ejemplos (por ejemplo 5.2 de la Universidad de Bristol Centro de Multinivel Modelado) y encontraron los errores estándar son también no muy diferente (no, no estoy interesado en el de efectos aleatorios propios de la modelo mixto, pero vale la pena señalar que la CPI desde el modelo mixto de salida es de 0,42).
Así que, mis preguntas son: 1) ¿bajo qué condiciones el estándar de los errores de ser muy diferentes cuando la agrupación se produce, y 2) alguien puede dar un ejemplo de un conjunto de datos (simulado o no).