22 votos

¿Cómo evaluar el ajuste de un binomio GLMM equipadas con lme4 (> 1.0)?

Tengo un GLMM con una distribución binomial y una función de enlace logit, y tengo la sensación de que un aspecto importante de los datos no está bien representado en el modelo.

Para probar esto, me gustaría saber si o no los datos está bien descrita por una función lineal en la escala logit. Por lo tanto, me gustaría saber si los residuos se comportan bien. Sin embargo, no puedo encontrar en que los residuos de parcela a parcela y cómo interpretar la trama.

Tenga en cuenta que estoy usando la nueva versión de lme4 (la versión de desarrollo de GitHub):

packageVersion("lme4")
## [1] ‘1.1.0'

Mi pregunta es: ¿Cómo inspeccionar e interpretar los residuos de un binomio modelos mixtos lineales generalizados con una función de enlace logit?

Los siguientes datos representan sólo el 17% de mis datos reales, pero de la colocación ya tarda alrededor de 30 segundos en mi máquina, así que lo dejo como esta:

require(lme4)
options(contrasts=c('contr.sum', 'contr.poly'))

dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif")
dat$V1 <- factor(dat$V1)

m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial)

El más simple de la parcela (?plot.merMod) se produce el siguiente:

plot(m1)

enter image description here

¿Esto ya me dirá algo?

22voto

Ben Bolker Puntos 8729

Respuesta corta ya que no tengo tiempo para mejor: este es un problema difícil; datos binarios casi siempre se requiere algún tipo de agrupamiento o de suavizado para evaluar la bondad de ajuste. Fue algo muy útil el uso de fortify.lmerMod (de lme4, experimental), en conjunción con ggplot2 y particularmente geom_smooth() a dibujar esencialmente el mismo residual-vs-equipada parcela tiene arriba, pero con intervalos de confianza (yo también se redujo la y los límites de un poco de zoom en la (-5,5) de la región). Que sugirió que algunas de las variaciones sistemáticas que podría ser mejorada mediante el ajuste de la función de enlace. (Yo también traté de trazado de los residuos contra los otros predictores, pero no era demasiado útil.)

Traté de ajustar el modelo con todos los 3-forma de las interacciones, pero no era mucho de una mejora en la desviación o en la forma de la alisado residual de la curva.

Luego he utilizado este poco de fuerza bruta para intentar inversa-funciones de enlace de la forma $(\mbox{logistic}(x))^\lambda$ $\lambda$ van desde 0.5 a 2.0:

## uses (fragile) internal C calls for speed; could use plogis(),
##  qlogis() for readability and stability instead
logitpower <- function(lambda) {
    L <- list(linkfun=function(mu)
              .Call(stats:::C_logit_link,mu^(1/lambda),PACKAGE="stats"),
              linkinv=function(eta)
              .Call(stats:::C_logit_linkinv,eta,PACKAGE="stats")^lambda,
              mu.eta=function(eta) {
                  mu <-  .Call(stats:::C_logit_linkinv,eta,PACKAGE="stats")
                  mu.eta <-  .Call(stats:::C_logit_mu_eta,eta,PACKAGE="stats")
                  lambda*mu^(lambda-1)*mu.eta
              },
              valideta = function(eta) TRUE ,
              name=paste0("logit-power(",lambda,")"))
    class(L) <- "link-glm"
    L
}

He encontrado que un $\lambda$ 0,75 fue ligeramente mejor que la del modelo original, aunque no de forma significativa -- yo podría haber sido overinterpreting los datos.

Vea también: http://freakonometrics.hypotheses.org/8210

4voto

Abijeet Patro Puntos 108

Esto es muy común el tema de la bioestadística/epidemiología cursos, y no hay muy buenas soluciones para que, básicamente debido a la naturaleza del modelo. A menudo, la solución ha sido evitar un diagnóstico detallado el uso de los residuos.

Ben ya escribió que el diagnóstico a menudo requieren el agrupamiento o suavizado. El agrupamiento de los residuos es (o era) disponible en el paquete de R brazo, véase por ejemplo, este hilo. Además, hay trabajo que hacer, que utiliza probabilidades pronosticadas; una posibilidad es la separación de la parcela que ha sido discutido anteriormente en este hilo. Aquellos que pueden o no ayudar directamente en tu caso, pero es posible podría ayudar a la interpretación.

-4voto

RailsSon Puntos 3944

Equipado vs parcela de residuos no debe presentar ningún patrón (borrar). La figura muestra que el modelo no funciona bien con los datos. ver http://www.r-bloggers.com/model-validation-interpreting-residual-plots/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X