11 votos

¿Cuál es la interpretación de ranef, fixef y coef en un modelo de efectos mixtos utilizando lmer?

Tengo dos observaciones de una persona cada una, donde cada observación corresponde a un tratamiento diferente. Los tratamientos son efectos fijos, las personas son efectos aleatorios. Utilizo el comando

model <- lmer(response ~ treatment + (1|Person))

Cuando corro summary() en este modelo, obtengo varianzas para el residuo y el efecto aleatorio de la persona. También obtengo los valores medios correspondientes al tratamiento administrado. Entiendo esto.

Pero ¿cuál es la salida de ranef ? fixef ? coef ? No entiendo lo que hacen estas cosas. Tampoco sé nada de los modelos mixtos más allá de la definición básica, así que me gustaría una explicación no técnica en lugar de una que diga "oh ranef sólo te da la inserte el término técnico aquí ").

EDITAR:

Jugando con las cosas, parece que la salida de 'coef' son sumas de las salidas fixef y ranef. Las salidas fijas parecen tener una explicación obvia, así que supongo que mi pregunta se reduce a una consulta sobre 'ranef' y 'fitted'. ¿Qué es lo que hacen?

Creo que es especialmente 'ranef' lo que no entiendo. ¿Cómo son estos efectos aleatorios (eso es lo que significa ranef, no?) cuando las únicas estimaciones con las que tenemos que trabajar son estimaciones de parámetros para los valores medios y una estimación de la varianza para el efecto aleatorio y una estimación de la varianza para el "ruido" residual?

24voto

Ben Bolker Puntos 8729
  • fixef() es relativamente fácil: es una envoltura de conveniencia que le da los parámetros de efecto fijo, es decir, los mismos valores que aparecen en summary() . A menos que especifique su modelo de una manera muy particular, estos son no los "valores medios correspondientes a lo que se ha tratado" como se sugiere en su pregunta; más bien son contrastes entre tratamientos . Utilizando la configuración por defecto de R, el primer parámetro ("Intercept") es la respuesta media para el primer nivel de tratamiento, mientras que los parámetros restantes son los diferencia entre las respuestas medias de los niveles 2 y superiores y la respuesta media del nivel 1. (De Jake Westfall en los comentarios: "Otra forma de explicar fixef() es que devuelve esencialmente lo mismo que cuando se llama a coef() en un lm objeto de regresión -- es decir, devuelve los coeficientes (medios) de regresión.")

  • ranef() da el modos condicionales es decir, la diferencia entre la respuesta media prevista (a nivel de población) para un conjunto determinado de valores de efectos fijos (tratamiento) y la respuesta prevista para un individuo concreto. Se puede pensar en ellos como efectos a nivel individual, es decir, ¿cuánto difiere un individuo de la población? También son, a grandes rasgos, equivalentes a las modas de las densidades posteriores bayesianas para las desviaciones de los efectos individuales del grupo con respecto a las medias de la población (pero tenga en cuenta que en la mayoría de los demás aspectos lme4 est no dando estimaciones bayesianas).

    No es tan fácil hacer un resumen no técnico de la procedencia de los modos condicionales; técnicamente, son las soluciones de un procedimiento de estimación por mínimos cuadrados ponderados penalizados. Otra forma de pensar en ellos es como estimaciones de contracción son un compromiso entre el valor observado para un grupo concreto (que es lo que estimaríamos si la varianza entre grupos fuera infinita, es decir, tratamos a los grupos como efectos fijos) y la media a nivel de población (que es lo que estimaríamos si la varianza entre grupos fuera 0, es decir, agrupamos a todos los grupos), ponderada por las proporciones relativas de varianza que hay dentro de los individuos y entre ellos. Para más información, puede buscar una explicación no técnica de mejores predicciones lineales insesgadas (o "BLUPs"), que son equivalentes a los modos condicionales en este caso (modelo mixto lineal simple) ...

  • coef() da los efectos previstos para cada individuo; en el sencillo ejemplo que usted da, coef() es básicamente el valor de fixef() aplicable a cada individuo más el valor de ranef() .

Estoy de acuerdo con los comentarios de que sería conveniente buscar más material de referencia sobre los modelos mixtos:

  • Gelman y Hill's Modelización de regresión aplicada
  • Pinheiro y Bates Modelos de efectos mixtos en S y S-PLUS
  • varios libros de Zuur y otros.
  • McElreath's Repensar las estadísticas
  • (enchufe desvergonzado) capítulo 13 en Fox y otros. Estadísticas ecológicas

6voto

Papou Puntos 1

El modelo ajustado con lmer(respuesta ~ tratamiento + (1|Persona)) puede expresarse en forma de matriz como $$ y = X\beta + Zu + e $$ donde $\beta$ es el vector de efectos fijos, u el vector de efectos aleatorios y e el vector de términos de error. La función getME{lme4} puede utilizarse para extraer ambos $X$ y $Z$ para un modelo. Para el modelo en discusión, aplicamos los supuestos típicos de normalidad, medias nulas para los elementos aleatorios y
$$Var(u) = \sigma_u^2 I, \ Var(e) = \sigma_e^2I\ and \ Cov(u, e') = 0.$$ Por lo tanto, $$Var(y) = \sigma_u^2 ZZ'\ + \sigma_e^2I$$

Dado que la pregunta era específica sobre cómo los efectos aleatorios "estimados" de $u$ se calculan, asumo que hay una comprensión de cómo $\hat\beta, \hat\sigma_u^2,$ y $\hat\sigma_e^2$ se obtienen por el método de máxima verosimilitud restringida (REML), que es el predeterminado para lmer().

Como han mencionado otros, $u$ siendo aleatorio, puede predecirse con el método BLUP. Conceptualmente, el concepto clave es encontrar un estimador, no para $u,$ pero para la media condicional de $u$ dado $y$ , denotado como $E(u|y)$ . Para ello, observe que $$ \begin{pmatrix} y\\ u \end{pmatrix} = \begin{pmatrix} X\beta\\ 0 \end{pmatrix} + \begin{pmatrix} Z & I\\ I & 0 \end{pmatrix} \begin{pmatrix} u\\ e \end{pmatrix} \sim N\begin{pmatrix} \begin{pmatrix} X\beta \\ 0\\ \end{pmatrix}, & \begin{pmatrix} \sigma_u^2 ZZ' + \sigma_e^2 I & \sigma_u^2 Z\\ \sigma_u^2 Z' & \sigma_u^2I \end{pmatrix} \\ \end{pmatrix} $$

Por lo tanto, por la propiedad de la distribución normal multivariante, $$E(u|y) = Z'( ZZ' + \frac{\sigma_e^2}{\sigma_u^2} I)^{-1}(y - X\beta)$$

Entonces parece natural introducir los estimadores REML $\hat\beta, \hat\sigma_u^2,$ y $\hat\sigma_e^2$ en la fórmula anterior para $E(u|y)$ como un predictor de la variable no observada $u$ . Los trabajos teóricos han establecido que este estimador es efectivamente "el" BLUP de $u$ . No conozco bien los scripts de lmer() para afirmar que utiliza este algoritmo; sin embargo, al probarlo, el algoritmo produjo números consistentes con ranef().

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X