9 votos

¿Por qué la introducción de un efecto al azar cuesta agrandado la cuesta ' s SE?

Estoy tratando de analizar el efecto del Año sobre la variable logInd para un grupo determinado de individuos (tengo 3 grupos). El modelo más simple:

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16 

Podemos ver que el Grupo 1 es significativamente disminuyendo, la Groups2 y 3 más, pero no de manera significativa.

Claramente el individuo debe ser de efectos aleatorios, así que me presento al azar interceptar efecto para cada individuo:

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

Tuvo un efecto esperado - el SE de laderas (coeficientes Grupo1-3:Año) son ahora más bajo y el residuo se es también menor.

Los individuos también son diferentes en la forma pendiente así que me introdujo también el azar efecto de la pendiente:

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

Pero ahora, al contrario de lo esperado, la SE de laderas (coeficientes Grupo1-3:Año) son ahora mucho mayor, incluso más que con ningún efecto aleatorio a todos!!!!

¿Cómo es esto posible? Yo esperaría que el efecto aleatorio se "come" la inexplicable la variabilidad y aumentar la "seguridad" de la estimación!

Sin embargo, el residual SE comporta de la forma esperada es menor que en el intercepto aleatorio del modelo.

Estos son los datos si es necesario.

Editar

Ahora me di cuenta de hecho asombroso. Si tengo que hacer la regresión lineal para cada individuo por separado y, a continuación, ejecute ANOVA sobre la resultante de las pistas, me dan exactamente el mismo resultado que el azar de la pendiente de modelo! Si queréis saber por qué?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079 

Estos son los datos si es necesario.

11voto

John with waffle Puntos 3472

Creo que el problema es con sus expectativas:) se Nota que a la hora de agregar un intercepto aleatorio para cada individuo, el error estándar de la intercepta mayor. Puesto que cada individuo puede tener su propio interceptar, al promedio del grupo es menos cierto. Lo mismo sucedió con el azar de la pendiente: no estimación de uno común (dentro del grupo) pendiente más, pero el promedio de la variación de las pendientes.

EDIT: ¿por Qué no un modelo mejor dar una estimación más precisa?

Vamos a pensar en otra forma: ¿por qué el modelo inicial subestimar el error estándar? Se asume la independencia de las observaciones que no son independientes. El segundo modelo se relaja este supuesto (de una manera que afecta a la intercepta), y la tercera se relaja más.

EDIT 2: relación con muchos de los pacientes específicos de los modelos

Su observación es un conocido de la propiedad (y si tenía sólo dos años, entonces el modelo de efectos aleatorios sería equivalente a una prueba de t pareada). Yo no creo que pueda administrar una prueba real, pero tal vez la escritura de los dos modelos de hacer la relación más clara. Vamos a pasar por alto la agrupación de la variable, como se acaba de complicar la notación. Voy a utilizar letras griegas para efectos aleatorios, y latina de las cartas para los efectos fijos.

El modelo de efectos aleatorios es de ($i$ - sujeto, $j$ - replicarse dentro de asignatura): $$Y_{ij} = a + \alpha_i + (b+\beta_i)x_{ij} + \epsilon_{ij},$$ where $(\alpha_i,\beta_i)'\sim N(0,\Sigma)$ and $\epsilon_{ij}\sim N(0,\sigma^2)$.

Cuando el ajuste de modelos independientes para cada sujeto, a continuación, $$Y_{ij} = a_i + b_i x_{ij}+ \epsilon_{ij},$$ where $\epsilon_{ij}\sim N(0,\sigma_i^2)$.

[Nota: la siguiente es realmente sólo handwaving:]

Usted puede ver una gran cantidad de similitudes entre estos dos modelos con $a_i$ correspondiente a$a+\alpha_i$$b_i$$b+\beta_i$. El promedio de $b_i$'s corresponde a $b$, debido a los efectos aleatorios promedio de 0. Las restricciones de correlación de la aleatorios intercepto y de la pendiente conduce al hecho de que los modelos sólo pueden montarse por separado. No estoy seguro de cómo cada uno de los $\sigma$ suposición de mallas con el tema específico de la $\sigma_i$, pero supongo que la $\alpha_i$ recoge la diferencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X