16 votos

¿Por qué se supone que los efectos aleatorios siguen una distribución normal en los (G)LMM?

En resumen, mi pregunta es la siguiente:

  • ¿Por qué es habitual asumir efectos aleatorios con distribución normal (especialmente en los modelos lineales mixtos generalizados)?

Una versión más larga:

En algunas circunstancias, un efecto aleatorio de distribución aproximadamente normal tiene sentido. Por ejemplo, digamos que medimos el peso de los individuos ( $y$ ) en función del tipo de dieta ( $x$ ) que tenían, una vez antes y una vez al mes después de la dieta. Si los individuos ( $\upsilon$ ) se miden dos veces, entonces el siguiente LMM:

$$y_{ij} = \beta_0+ \beta_1 x + \upsilon_i + \epsilon_{ij} \\ \upsilon \sim \mathcal{N}(0,\,\sigma_\upsilon^2), \; \epsilon \sim \mathcal{N}(0,\,\sigma_\epsilon^2)$$

básicamente asume que los individuos ( $\upsilon$ ) proceden de alguna población mayor, lo que provoca un desplazamiento aleatorio, normalmente distribuido, de su peso inicial. Se podría argumentar que cualquier diferencia (desconocida) que exista entre los individuos (genética, ambiental, de estilo de vida), podría sumarse a una distribución normal tantas sumas de variables aleatorias independientes como . De hecho, podríamos utilizar casi el mismo argumento para los errores de la variable de resultado ( $\epsilon$ ).

Sin embargo, digamos que contamos las aves ( $y$ ) en diferentes tipos de terreno ( $x$ ) en diferentes islas ( $\upsilon$ ) y utilizar un GLMM de Poisson, ¿por qué, si es que lo es, sigue siendo defendible el supuesto de normalidad? Seguramente la suma de variables aleatorias que difieren entre dos islas puede provocar un desplazamiento de distribución normal para un resultado con normalmente errores distribuidos, pero ¿cómo podemos justificar esto para una estructura de error no normal?

Entiendo que un GLMM modela el efecto aleatorio en la parte lineal, pero ¿no se supone que esta parte lineal todavía no tiene una estructura de error normal? (Perdón por la doble negación).


Pregunta extra:

  • ¿Existen ejemplos sencillos de efectos aleatorios no normales (por ejemplo, con distribución de Poisson)?

7 votos

no tengo tiempo para responder adecuadamente, pero básicamente: los efectos aleatorios se imponen siempre a la escala de predicción lineal lo que significa que buscamos una variable continua sin restricciones (puede tomar cualquier valor real); la normalidad es defendible por los mismos motivos de límite central. Además, es conveniente desde el punto de vista analítico y computacional.

2 votos

Otro pequeño punto que otros no han mencionado es que es mucho más sencillo con las distribuciones normales especificar ciertas estructuras de covarianza en los efectos aleatorios que le permiten generalizar un efecto aleatorio iid (como en su ejemplo de modelo lineal) a escenarios no iid, es decir, efectos aleatorios temporales o espaciales.

1 votos

@BenBolker Gracias por tu comentario (y por lme4 !). Puedo imaginar la conveniencia computacional, pero todavía no entiendo por qué la normalidad en la escala del predictor lineal es defendible por los mismos motivos. Tal vez estoy pensando en la dirección equivocada, pero los "residuos" de un MLG no son normales como se describe aquí: stats.stackexchange.com/a/139624/176202 )? Incluso después de aplicar la función de enlace, no puedo ver cómo surge la distribución normal.

16voto

user219012 Puntos 1

Algunos puntos:

  1. La elección de una distribución normal para los efectos aleatorios en los modelos lineales mixtos (es decir, con distribución normal) se suele hacer por conveniencia matemática. Es decir, la distribución normal de $[Y \mid b]$ funciona bien con la distribución normal para los efectos aleatorios $[b]$ y se obtiene una distribución marginal que para el resultado $[Y]$ que es normal multivariante.

  2. En este sentido, ayuda ver un modelo mixto como un modelo jerárquico bayesiano. En concreto, en el modelo lineal mixto, suponer una distribución normal para los efectos aleatorios es una prioridad conjugada que nos devuelve una forma posterior cerrada. Por lo tanto, se puede hacer lo mismo para otras distribuciones. Si tiene datos de resultados binomiales, la prioridad conjugada para los efectos aleatorios es una distribución Beta, y obtiene el modelo Beta-Binomial. Del mismo modo, si tiene datos de resultados Poisson, la prioridad conjugada para los efectos aleatorios es una distribución Gamma, y obtiene el modelo Gamma-Poisson. Sólo para dejar claro aquí que en los ejemplos mencionados anteriormente, la distribución de los efectos aleatorios estaba en la escala de la media del resultado condicionado a los efectos aleatorios no en la escala del predictor lineal (por ejemplo, en el ejemplo Gamma-Poisson, en la escala del predictor lineal la distribución asumida sería una distribución log-Gamma).

  3. No hay nada que le impida cambiar la distribución. Por ejemplo, en el modelo lineal mixto podría utilizar una distribución t de Student para los efectos aleatorios, o en los resultados categóricos utilizar una distribución normal. Pero entonces se pierde la ventaja computacional de tener una forma cerrada posterior. Existe una considerable literatura que estudia el impacto de cambiar la distribución de efectos aleatorios. Mucha gente ha propuesto modelos flexibles para ello; por ejemplo, utilizando splines o mezclas para poder capturar las distribuciones de efectos aleatorios que son multimodales. Sin embargo, el consenso general ha sido que la distribución normal funciona bastante bien. Es decir, incluso si se simulan datos de una distribución bimodal o sesgada para los efectos aleatorios, y se asume en el modelo mixto que es normal, los resultados (es decir, las estimaciones de los parámetros y los errores estándar) son casi idénticos a cuando se ajusta un modelo flexible que captura esta distribución de forma más apropiada.

  4. Por lo tanto, la elección de la distribución normal ha dominado, aunque existan otras opciones. Con respecto a su punto sobre si la elección de una distribución normal es defendible para los datos categóricos, como Ben mencionó, tenga en cuenta que la distribución de los efectos aleatorios se coloca no en el resultado, sino en la media transformada del resultado. Por ejemplo, para los datos de Poisson se asume una distribución normal para los efectos aleatorios para $\log(\mu)$ donde $\mu$ denota el esperado recuentos de la variable de resultado $Y$ que son los recuentos observados.

1 votos

Gracias por tu respuesta @DimitrisRizopoulos, pero ¿entiendo por (2) que estás diciendo que la distribución normal es no ¿una elección previa lógica para un GLMM (por ejemplo, binomial) en el contexto del BHM porque no sería una previa conjugada?

1 votos

@FransRodenburg No, no estoy diciendo esto. La conjugación es sólo una conveniencia matemática/computacional (de hecho, antes del avance de MCMC el enfoque bayesiano ha sido criticado por ser capaz de trabajar prácticamente sólo con priores conjugados). La distribución normal es una elección más natural porque los efectos aleatorios son en cierto sentido coeficientes de regresión, y para los coeficientes de los modelos de regresión sabemos que su posterior (bayesiano) o su distribución de muestreo (máxima verosimilitud) es aproximadamente normal.

4 votos

Yo añadiría que los LMMs / GLMMs estándar utilizan en realidad REs normales multivariantes. Por ejemplo, cuando se ajusta una pendiente / intercepción aleatoria, lme4 también ajustará la correlación entre los dos. Sería muy difícil (aunque por supuesto no imposible) mantener este principio con otras distribuciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X