En resumen, mi pregunta es la siguiente:
- ¿Por qué es habitual asumir efectos aleatorios con distribución normal (especialmente en los modelos lineales mixtos generalizados)?
Una versión más larga:
En algunas circunstancias, un efecto aleatorio de distribución aproximadamente normal tiene sentido. Por ejemplo, digamos que medimos el peso de los individuos ( $y$ ) en función del tipo de dieta ( $x$ ) que tenían, una vez antes y una vez al mes después de la dieta. Si los individuos ( $\upsilon$ ) se miden dos veces, entonces el siguiente LMM:
$$y_{ij} = \beta_0+ \beta_1 x + \upsilon_i + \epsilon_{ij} \\ \upsilon \sim \mathcal{N}(0,\,\sigma_\upsilon^2), \; \epsilon \sim \mathcal{N}(0,\,\sigma_\epsilon^2)$$
básicamente asume que los individuos ( $\upsilon$ ) proceden de alguna población mayor, lo que provoca un desplazamiento aleatorio, normalmente distribuido, de su peso inicial. Se podría argumentar que cualquier diferencia (desconocida) que exista entre los individuos (genética, ambiental, de estilo de vida), podría sumarse a una distribución normal tantas sumas de variables aleatorias independientes como . De hecho, podríamos utilizar casi el mismo argumento para los errores de la variable de resultado ( $\epsilon$ ).
Sin embargo, digamos que contamos las aves ( $y$ ) en diferentes tipos de terreno ( $x$ ) en diferentes islas ( $\upsilon$ ) y utilizar un GLMM de Poisson, ¿por qué, si es que lo es, sigue siendo defendible el supuesto de normalidad? Seguramente la suma de variables aleatorias que difieren entre dos islas puede provocar un desplazamiento de distribución normal para un resultado con normalmente errores distribuidos, pero ¿cómo podemos justificar esto para una estructura de error no normal?
Entiendo que un GLMM modela el efecto aleatorio en la parte lineal, pero ¿no se supone que esta parte lineal todavía no tiene una estructura de error normal? (Perdón por la doble negación).
Pregunta extra:
- ¿Existen ejemplos sencillos de efectos aleatorios no normales (por ejemplo, con distribución de Poisson)?
7 votos
no tengo tiempo para responder adecuadamente, pero básicamente: los efectos aleatorios se imponen siempre a la escala de predicción lineal lo que significa que buscamos una variable continua sin restricciones (puede tomar cualquier valor real); la normalidad es defendible por los mismos motivos de límite central. Además, es conveniente desde el punto de vista analítico y computacional.
2 votos
Otro pequeño punto que otros no han mencionado es que es mucho más sencillo con las distribuciones normales especificar ciertas estructuras de covarianza en los efectos aleatorios que le permiten generalizar un efecto aleatorio iid (como en su ejemplo de modelo lineal) a escenarios no iid, es decir, efectos aleatorios temporales o espaciales.
1 votos
@BenBolker Gracias por tu comentario (y por
lme4
!). Puedo imaginar la conveniencia computacional, pero todavía no entiendo por qué la normalidad en la escala del predictor lineal es defendible por los mismos motivos. Tal vez estoy pensando en la dirección equivocada, pero los "residuos" de un MLG no son normales como se describe aquí: stats.stackexchange.com/a/139624/176202 )? Incluso después de aplicar la función de enlace, no puedo ver cómo surge la distribución normal.0 votos
@marmle Ese es un punto muy bueno. Sin embargo, sigo teniendo curiosidad por saber si para algunos casos hay una justificación teórica.