13 votos

Inferencia no válida cuando las observaciones no son independientes

Aprendí en la escuela primaria estadísticas que, con un modelo lineal general, para las inferencias para ser válidas, las observaciones deben ser independientes. Cuando la agrupación se produce, la independencia no puede sostener que conduce a la inferencia no válida a menos que esto se tiene en cuenta. Una manera de dar cuenta de como la agrupación es mediante el uso de modelos mixtos. Me gustaría encontrar un ejemplo de conjunto de datos simulados o no, que demuestra claramente. He intentado utilizar uno de los conjuntos de datos de muestra en la UCLA sitio para el análisis agrupado de los datos de

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

A menos que me estoy perdiendo algo, estos resultados son lo suficientemente similares como para que yo no creo que la salida de lm() no es válido. He mirado en algunos otros ejemplos (por ejemplo 5.2 de la Universidad de Bristol Centro de Multinivel Modelado) y encontraron los errores estándar son también no muy diferente (no, no estoy interesado en el de efectos aleatorios propios de la modelo mixto, pero vale la pena señalar que la CPI desde el modelo mixto de salida es de 0,42).

Así que, mis preguntas son: 1) ¿bajo qué condiciones el estándar de los errores de ser muy diferentes cuando la agrupación se produce, y 2) alguien puede dar un ejemplo de un conjunto de datos (simulado o no).

11voto

Coolcoder Puntos 1467

Primero de todo, está a la derecha de este conjunto de datos tal vez no es la mejor forma de comprender el modelo mixto. Pero veamos primero por qué

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

Puede ver que tiene 310 observaciones y 187 grupos, de los cuales 132 tener sólo una observación. Esto no quiere decir que no debemos usar multi-nivel de modelado, sino sólo que no vamos a llegar muy diferentes resultados como se dijo.

Multi-nivel de la modelización de la motivación

La motivación para el uso de multi-nivel de modelización se inicia desde el diseño en sí, y no sólo a partir de los resultados de la empresa de análisis. Por supuesto, el ejemplo más común es la adopción de múltiples observaciones de los individuos, pero para hacer las cosas más extremas para dar una más fácil comprensión de la situación, creo que pidiendo a las personas de diferentes países de todo el mundo acerca de sus ingresos. Para mejores ejemplos son aquellos que tienen una gran cantidad de heterogeneidad, como la toma de clusters que son homogéneos en el examen de resultado, por supuesto no hará mucha diferencia.

Ejemplo

Por lo tanto, vamos a simular algunos datos para hacer las cosas más claras, la simulación funciona mejor que con la vida real de los datos no es obvio. Imagine que usted tome $10$ países y pedir a $100$ de los individuos de cada país sobre sus ingresos y y algo más, x que tiene un efecto positivo en los ingresos con coeficiente de $0.5$.

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

Así, la ejecución de un modelo lineal de obtener

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

y llegar a la conclusión de que x no tiene ningún efecto estadístico en y. Ver cómo de grande es el error estándar. Pero la ejecución de un azar intercepto en el modelo de

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

a ver cómo tanto el error estándar de la estimación ha cambiado. Mirando el efecto aleatorio parte, vemos cómo la variabilidad ha sido descompuesto - la mayoría de la variabilidad en los ingresos entre los países, y dentro de los países la gente tiene más ingresos similares. En palabras simples, lo que sucedió aquí es que no se de contabilidad para la agrupación, el efecto de la x es "perderse" (si podemos usar este tipo de término), pero la descomposición de la variabilidad de encontrar lo que realmente debe conseguir.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X