Esta respuesta no se basa en mis conocimientos, sino que cita lo que Bolker et al. (2009) escribió en un influyente artículo de la revista Tendencias en Ecología y Evolución . Dado que el artículo no es de acceso abierto (aunque su búsqueda en Google scholar puede tener éxito, he pensado en citar pasajes importantes que pueden ser útiles para abordar parte de las preguntas. Así que, de nuevo, no es lo que se me ocurrió a mí, pero creo que representa la mejor información condensada sobre los GLMM (incluidos los diagnósticos) que hay en un estilo de escritura muy directo y fácil de entender. Si por alguna razón esta respuesta no es adecuada, simplemente la borraré. Las cosas que encuentro útiles con respecto a las preguntas sobre el diagnóstico se destacan en negrita .
Página 127:
Los investigadores que se enfrentan a datos no normales a menudo intentan atajos como transformar los datos para lograr la normalidad y la homogeneidad de la varianza, utilizando pruebas no paramétricas o confiando en la robustez del ANOVA clásico frente a la no normalidad. para diseños equilibrados [15]. Pueden ignorar los efectos aleatorios aleatorios (cometiendo así una pseudoreplicación) o tratarlos como factores fijos [16]. Sin embargo, estos atajos pueden fallar (por ejemplo, los datos de recuento con muchos valores cero no pueden hacerse normales mediante una transformación). Incluso cuando tienen éxito, pueden pueden violar los supuestos estadísticos (incluso las pruebas no paramétricas de homogeneidad de la varianza entre los grupos) o limitar el alcance de la entre grupos) o limitar el alcance de la inferencia (no se puede extrapolar las estimaciones de los efectos fijos a nuevos grupos). En lugar de meter los datos con calzador en los marcos estadísticos clásicos los marcos estadísticos clásicos, los investigadores deberían utilizar que se ajusten a sus datos. Los modelos lineales generalizados de los datos. Los modelos lineales mixtos generalizados (GLMM) combinan las propiedades de dos dos marcos estadísticos muy utilizados en ecología y evolución, los modelos lineales lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales utilizando funciones de enlace y la familia exponencial [por ejemplo, normal Poisson o binomial). Los GLMM son la mejor herramienta para analizar datos no normales que implican efectos aleatorios aleatorios: todo lo que hay que hacer, en principio, es especificar una distribución, la función de enlace y la estructura de los efectos aleatorios efectos aleatorios.
Página 129, casilla 1:
El los residuos indicaban una sobredispersión por lo que volvimos a ajustar los datos con un modelo cuasi-Poisson. A pesar del gran parámetro de escala estimado (10,8), los gráficos exploratorios no encontraron evidencia de valores atípicos a nivel de individuos, genotipos o poblaciones. Utilizamos el cuasi-AIC (QAIC) utilizando un grado de libertad para los efectos aleatorios [49], para los efectos aleatorios y luego para la selección del modelo de efectos fijos.
Página 133, casilla 4:
A continuación, describimos un marco general para construir un modelo completo (el más complejo), el primer paso en el análisis del MLG. Siguiendo este proceso, se pueden evaluar los parámetros y comparar los submodelos como se describe en el texto principal y en la figura 1.
-
Especifique los efectos fijos (tratamientos o covariables) y aleatorios (bloques experimentales, espaciales o temporales, individuos, etc.). Incluya sólo las interacciones importantes. Restringir el modelo a priori a un nivel de nivel de complejidad factible, basado en reglas empíricas (>5-6 niveles de efectos aleatorios por efecto aleatorio y >10-20 niveles de efectos aleatorios por efecto aleatorio). niveles de efectos aleatorios por efecto aleatorio y >10-20 muestras por nivel de tratamiento o unidad experimental) y el conocimiento de los tamaños de muestra adecuados de estudios anteriores [64,65].
-
Elija una distribución de error y una función de enlace (por ejemplo, la distribución de Poisson de Poisson y enlace log para datos de recuento, distribución binomial y enlace logit para datos de proporción).
-
Comprobación gráfica son las varianzas de los datos (transformadas por el enlace ) son homogéneas entre las categorías? ¿Son las respuestas de los datos transformados son lineales con respecto a los predictores continuos? ¿Hay individuos o grupos atípicos? ¿Las distribuciones dentro de grupos coinciden con la distribución supuesta?
-
Ajustar los MLG de efectos fijos tanto al conjunto de datos (agrupados) como dentro de cada nivel de los factores aleatorios [28,50]. Parámetros estimados deben tener una distribución aproximadamente normal entre los grupos (los parámetros a nivel de grupo pueden tener grandes incertidumbres, especialmente para grupos con tamaños de muestra pequeños). Ajuste el modelo según sea necesario (por ejemplo, cambiar la función de enlace o añadir covariables).
-
Ajustar el GLMM completo. Memoria insuficiente o demasiada lentitud: reduzca la complejidad del modelo. complejidad del modelo. Si la estimación tiene éxito en un subconjunto de datos intente un algoritmo de estimación más eficiente (por ejemplo, PQL si es apropiado). No converge (advertencias o errores): reduzca la complejidad del modelo o cambie los ajustes de optimización (asegúrese de que las respuestas resultantes tienen sentido). Pruebe otros algoritmos de estimación. Componentes de varianza cero o singularidad (advertencias o errores): compruebe que el modelo está bien definido y es identificable (es decir, todos los componentes pueden estimarse teóricamente). Reducir la complejidad del modelo. Añadir información al modelo (covariables adicionales o nuevas agrupaciones de efectos aleatorios) puede aliviar los problemas, al igual que centrar las covariables continuas restando su media [50]. Si Si es necesario, elimine los efectos aleatorios del modelo completo, dejando de lado (i) los términos de menor interés biológico intrínseco, (ii) los términos con variantes estimadas muy varianzas estimadas muy pequeñas y/o gran incertidumbre, o (iii) términos de interacción de interacción. (Los errores de convergencia o las varianzas nulas podrían indicar datos insuficientes).
-
Vuelva a comprobar los supuestos para el modelo final (como en el paso 3) y compruebe que las estimaciones de los parámetros y los intervalos de confianza son razonables (unos intervalos de confianza gigantescos podrían indicar problemas de ajuste). El magnitud de los residuos estandarizados debe ser independiente de los valores ajustados. Evaluar la sobredispersión (la suma del cuadrado de los Los residuos de Pearson deben ser $\chi^2$ distribuido [66,67]). Si es necesario cambiar las distribuciones o estimar un parámetro de escala. Compruebe que un modelo completo que incluya efectos aleatorios eliminados con pequeñas desviaciones estándar da resultados similares al modelo final. Si diferentes modelos conducen a estimaciones de parámetros sustancialmente diferentes considere la posibilidad de promediar el modelo.
Los gráficos de residuos deben utilizarse para evaluar la sobredispersión y las varianzas transformadas deben ser homogéneas entre las categorías. En ninguna parte del artículo se menciona que los residuos deban tener una distribución normal.
Creo que la razón por la que hay declaraciones contrastadas refleja que las GLMM (página 127-128)...
...son sorprendentemente difíciles de usar incluso para los estadísticos. Aunque varios paquetes de software pueden manejar GLMMs (Tabla 1), pocos ecólogos y biólogos evolutivos son conscientes de la gama de opciones o de las posibles trampas. Al revisar los artículos sobre ecología y evolución desde 2005 encontrados por Google Scholar, 311 de 537 análisis de MLG (58%) utilizaron estas herramientas de forma inapropiada de alguna manera (véase el material suplementario en línea).
Y aquí son unos cuantos ejemplos completos trabajados con GLMMs que incluyen diagnósticos.
Me doy cuenta de que esta respuesta es más bien un comentario y debe ser tratada como tal. Pero la sección de comentarios no me permite añadir un comentario tan largo. Además, como creo que este documento es valioso para esta discusión (pero lamentablemente está detrás de un muro de pago), pensé que sería útil citar pasajes importantes aquí.
Artículos citados:
[15] - G.P. Quinn, M.J. Keough (2002): Experimental Design and Data Analysis for Biologists, Cambridge University Press.
[16] - M.J. Crawley (2002): Statistical Computing: An Introduction to Data Analysis Using S-PLUS, John Wiley & Sons.
[28] - J.C. Pinheiro, D.M. Bates (2000): Mixed-Effects Models in S and S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Conditional Akaike information for mixed-effects models. Biometrika, 92, pp. 351-370.
[50] - A. Gelman, J. Hill (2006): Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge University Press.
[64] - N.J. Gotelli, A.M. Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.
[65] - F.J. Harrell (2001): Regression Modeling Strategies, Springer.
[66] - J.K. Lindsey (1997): Applying Generalized Linear Models, Springer.
[67] - W. Venables, B.D. Ripley (2002): Modern Applied Statistics with S, Springer.