14 votos

Comparación entre estructuras de efectos aleatorios en un modelo lineal de efectos mixtos

Durante un solicitó recientemente a la pregunta acerca de los modelos de efectos mixtos lineal me dijeron que no se debe comparar entre modelos con diferentes efectos aleatorios de las estructuras mediante el cociente de probabilidad de las pruebas. Hasta ahora, yo había utilizado este enfoque en modelos anidados equipado con REML en el que los efectos fijos se mantienen constantes como una forma de encontrar el óptimo de efectos aleatorios de la estructura. Mi método se basa en una amplia de libros usados en la modelación estadística de los ecologistas "modelos de efectos Mixtos y extensiones en ecología con R", escrito por Alain Zuur (2009) capítulo 5. Este enfoque también fue respaldada en otro libro de LMEs por Pinheiro Y Bates (2000), es decir, pg 83.

Me gustaría buscar más información sobre si este es de hecho un imprudente método, y si es así, encontrar una alternativa viable dentro de R, que es más robusto.

Puedo dar ejemplos de los dos modelos anidados a continuación (creado usando el lme() en función de R) y cómo tendría que comparar entre ellos con LRTs o AICs:

# Model 1: Random intercept model
# > M1 = lme(dtim ~ dd, random= ~1 | fInd, data=df, method="REML")

Linear mixed-effects model fit by REML
 Data: df 
       AIC      BIC    logLik
  47344.74 47373.58 -23668.37

Random effects:
 Formula: ~1 | fInd
        (Intercept) Residual
StdDev:   0.5244626 2.574662

Fixed effects: dtim ~ dd
                 Value  Std.Error   DF   t-value p-value
(Intercept) -0.8681514 0.17048746 9988  -5.09217       0
    dd       2.2424996 0.01260611 9988 177.88982       0
 Correlation: 
       (Intr)
   dd -0.203

Standardized Within-Group Residuals:
       Min         Q1        Med         Q3        Max 
-5.7610884 -0.4620287 -0.1732839  0.2395293 13.0981698 

Number of Observations: 10000
Number of Groups: 11


# Model 2: random intercept and slope model
# > M2 = lme(dtim ~ dd, data=df, random= ~1 + dd|fInd, method="REML")

Linear mixed-effects model fit by REML
 Data: df 
       AIC      BIC    logLik
  47041.82 47085.08 -23514.91

Random effects:
 Formula: ~1 + dd | fInd
 Structure: General positive-definite, Log-Cholesky parametrization
            StdDev    Corr  
(Intercept) 0.4860448 (Intr)
dd          0.3231004 -0.687
Residual    2.5314343       

Fixed effects: dtim ~ dd 
                 Value  Std.Error   DF   t-value p-value
(Intercept) -0.5568345 0.15839434 9988 -3.515495   4e-04
 dd          2.0912224 0.09974746 9988 20.965168   0e+00
 Correlation: 
       (Intr)
 dd   -0.676

Standardized Within-Group Residuals:
       Min         Q1        Med         Q3        Max 
-4.6988351 -0.4460439 -0.1848166  0.2296023 12.9419866 

Number of Observations: 10000
Number of Groups: 11 


# Compare the two models using LRTs
> anova(M1,M2)
   Model df      AIC      BIC    logLik   Test  L.Ratio p-value
M1     1  4 47344.74 47373.58 -23668.37                        
M2     2  6 47041.82 47085.08 -23514.91 1 vs 2 306.9191  <.0001

# L ratio test statistic: to get correct p-value from L ratio test I would then use the below formula (due to testing the boundary effect)
# 0.5 * (  (1 - pchisq(L.ratio, 1)) +  (1 - pchisq(L.ratio, 2))  )
> 0.5 * (  (1 - pchisq(306.9191, 1)) +  (1 - pchisq(306.9191, 2))  )
[1] 0

L. Relación sugiere que la adición de un azar de la pendiente de plazo para que el modelo es una mejora significativa. La AIC es también menor. Cualquier consejo sobre si este es un método robusto sería apreciada.

11voto

usεr11852 Puntos 5514

Yo era el que sugiere que esto a ti; como le mencioné a mis comentarios allí, sin embargo: "pido Disculpas por ser engañosa la mayor parte de mi comentario considerado selección (en) $X$ $Z$ ". Por eso me refiero a que me estaba refiriendo principalmente a los efectos fijos en lugar de los efectos aleatorios de la estructura.

Sí, usted puede utilizar la LRT si tiene el mismo $X$, mientras que el uso de un modelo ajustado por REML. Usted debe ser capaz de utilizar la AIC en estos casos con precaución. Esto es debido a que no es obvio, tiene que definir los grados de libertad asociados con un efecto aleatorio. Usted no debe usar AIC "vainilla" versión directamente. Por favor, busque en Greven y Kneib, 2010 la recalificación de este, se presentan de una corrección de cAIC. También se dispone de un paquete de R la aplicación de la corrigió cAIC ellos contorno.

La AIC y la LRT son asintótica pruebas, pero las cosas tienden a ser peludo cuando usted necesita para estimar los parámetros que podrían ser cerca de los límites de su espacio muestral (es decir. cuando son las pruebas para las desviaciones de estar cerca de la $0$. En el caso de que usted realmente desea una mezcla de $\chi^2$-distribuciones. Una referencia pertinente de que se Lindquist et al., 2012. En la medida en que Morell, 1999 también puede ayudar si una justificación teórica sobre el uso de ReML.

Se preguntó por un "método robusto" para seleccionar el de efectos aleatorios de la estructura; en primera instancia, bootstrap su muestra. El uso de bootstrap paramétrico para evaluar el comportamiento asintótico de su modelo. Por favor, vea los comentarios mencionados en el glmm.wikidot acerca de si un efecto aleatorio es significativo. Como dije en mi anterior comentario me gustaría ser extremadamente cautelosos a la hora de inicio de modelo de selección de $Z$; prefiero a "tratar como dado" basado en mi pregunta de investigación. De lo contrario, simplemente me cherry-pick de mi error estructura tratando de "exprimir más el significado de los términos restantes" [glmm.wikidot].

Para recapitular: el uso de la LRT no es "imprudente"; aunque propenso a las limitaciones de LRTs con respecto a su comportamiento asintótico. Hay una serie de referencias sobre cómo proporcionar un remedio. La cosa más fácil para usted en este momento sería, simplemente, el uso RLRsim en primera instancia. Se basa en otra hoja de trabajo de Greven, Scheipl et al., 2008.

4voto

James Puntos 1045

Ciertamente no se puede utilizar la AIC, BIC o criterios similares a los que contienen una explícita término de penalización calculada con base en el número de parámetros en el modelo. Como he señalado en este tema, el número efectivo de los parámetros asociados con efectos aleatorios es desconocido. Yo no estaba seguro de que yo tenía razón cuando me envió a esa pregunta, pero nadie me desafió.

Del mismo modo, para calcular un valor de p basado en el LR estadística, uno tiene que saber la diferencia en el número de parámetros entre los modelos. Tengo una ominosa sensación de que, al igual que la AIC, que la diferencia tiene que ser en términos efectivos frente a términos nominales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X