12 votos

Diagnóstico de residuos y homogeneidad de varianzas en el modelo lineal mixto

Antes de hacer esta pregunta, busqué en nuestro sitio y encontré muchas preguntas similares, (como aquí , aquí y aquí ). Pero siento que esas preguntas relacionadas no fueron bien respondidas o discutidas, por lo que me gustaría plantear esta cuestión de nuevo. Creo que debe haber una gran cantidad de público que desea que este tipo de preguntas se expliquen con mayor claridad.

Para mis preguntas, primero considere el modelo lineal de efectos mixtos, $$ \mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon} $$ donde $X\boldsymbol \beta$ es el componente de efectos fijos lineales, $\mathbf{Z}$ es la matriz de diseño adicional correspondiente al parámetros de efectos aleatorios , $\boldsymbol \gamma$ . Y $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ es el término de error habitual.

Supongamos que el único factor de efecto fijo es una variable categórica Tratamiento con 3 niveles diferentes. Y el único factor de efecto aleatorio es la variable Asunto . Dicho esto, tenemos un modelo de efectos mixtos con efecto de tratamiento fijo y efecto de sujeto aleatorio.

Mis preguntas son, pues, las siguientes

  1. ¿Existe el supuesto de homogeneidad de la varianza en el marco de un modelo lineal mixto, análogo a los modelos tradicionales de regresión lineal? En caso afirmativo, ¿qué significa específicamente este supuesto en el contexto del problema del modelo lineal mixto mencionado anteriormente? ¿Cuáles son otros supuestos importantes que deben evaluarse?

Mis pensamientos: SÍ. Los supuestos (media de error cero y varianza igual) siguen siendo de aquí: $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ . En el marco del modelo de regresión lineal tradicional, podemos decir que el supuesto es que "la varianza de los errores (o simplemente la varianza de la variable dependiente) es constante en los 3 niveles de tratamiento". Pero no sé cómo explicar este supuesto en el marco del modelo mixto. ¿Debemos decir que "las varianzas son constantes en los 3 niveles de tratamiento, condicionando a los sujetos? o no"?

  1. El documento en línea de SAS sobre los diagnósticos de residuos e influencia ha sacado a relucir dos residuos diferentes, es decir, el Residuos marginales , $$ \mathbf{r_m = Y - X \hat{\boldsymbol \beta}} $$ y el Residuos condicionales , $$ \mathbf{r_c = Y - X \hat{\boldsymbol \beta} - Z \hat{\boldsymbol \gamma} = r_m - Z \hat{\boldsymbol \gamma}} .$$ Mi pregunta es, ¿para qué se utilizan los dos residuos? ¿Cómo podríamos utilizarlos para comprobar el supuesto de homogeneidad? Para mí, sólo los residuos marginales se pueden utilizar para abordar la cuestión de la homogeneidad, ya que corresponde a la $\boldsymbol \epsilon$ del modelo. ¿Es correcto lo que he entendido?

  2. ¿Se ha propuesto alguna prueba para comprobar el supuesto de homogeneidad en un modelo lineal mixto? @Kam señaló el prueba de levene previamente, ¿sería este el camino correcto? Si no es así, ¿cuáles son las indicaciones? Creo que después de ajustar el modelo mixto, podemos obtener los residuos, y tal vez puede hacer algunas pruebas (como la prueba de bondad de ajuste?), pero no estoy seguro de cómo sería.

  3. También me di cuenta de que hay tres tipos de residuos de Proc Mixed en SAS, a saber el residuo en bruto , el residuo estudiado y el residuo de Pearson . Puedo entender las diferencias entre ellos en términos de fórmulas. Pero a mí me parecen muy similares cuando se trata de gráficos de datos reales. Entonces, ¿cómo deben utilizarse en la práctica? ¿Hay situaciones en las que se prefiere un tipo a otro?

  4. Para un ejemplo de datos reales, los siguientes dos gráficos de residuos provienen de Proc Mixed en SAS. ¿Cómo se puede abordar con ellos el supuesto de la homogeneidad de las varianzas?

[Sé que tengo un par de preguntas aquí. Si puedes proporcionarme alguna de tus ideas a cualquier pregunta, es genial. No es necesario que las respondas todas si no puedes. Realmente deseo discutir sobre ellos para obtener una comprensión completa. Gracias]

Aquí están los gráficos de residuos marginales (crudos). Here are the marginal (raw) residual plots.

Aquí están los gráficos de residuos condicionales (crudos). Here are the conditional (raw) residual plots.

0 votos

Grandes preguntas - una posible respuesta a su número 2 se puede encontrar aquí comp.soft-sys.sas.narkive.com/7Qmrgufe/

3voto

LacusVir Puntos 11

Creo que las preguntas 1 y 2 están interconectadas. En primer lugar, el supuesto de homogeneidad de la varianza viene de aquí, $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ . Pero este supuesto puede relajarse a estructuras de varianza más generales, en las que el supuesto de homogeneidad no es necesario. Esto significa que realmente depende de cómo se distribuya la $\boldsymbol \epsilon$ se asume.

En segundo lugar, el residuos condicionales se utilizan para comprobar la distribución de (por tanto, cualquier suposición relacionada con) $\boldsymbol \epsilon$ mientras que el residuos marginales puede utilizarse para comprobar la estructura de la varianza total.

0 votos

Me encuentro con algunos de los mismos problemas que @AaronZeng. ¿Qué significa "comprobar la estructura de la varianza total", para lo cual deben utilizarse los residuos marginales? ¿Cómo se puede hacer esto, y por qué no se puede centrar en la comprobación de la estructura de la varianza para $\gamma$ ? Gracias.

2voto

Randel Puntos 3040

Se trata de un tema muy amplio y sólo ofreceré una visión general sobre la conexión con la regresión lineal estándar.

En el modelo que aparece en la pregunta, $$ \mathbf{y_i \sim N(X_i\boldsymbol \beta, Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I)}, $$ si $\boldsymbol \gamma_i \sim N(\mathbf{0, D})$ , donde $i$ denota un tema o grupo. Sea $\mathbf{\Sigma_i=Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I}$ . Utilizando la descomposición de Cholesky $\mathbf{\Sigma_i=L_i L'_i}$ podemos transformar el resultado y la matriz de diseño, $$\mathbf{y^*_i=L_i^{-1}y_i; X^*_i=L_i^{-1}X_i}.$$

Como se señala en Análisis longitudinal aplicado (Página 268), la estimación por mínimos cuadrados generalizados (GLS) de $\boldsymbol \beta$ (retrocediendo $\mathbf y_i$ en $\mathbf X_i$ ) puede reestimarse a partir de la regresión OLS de $\mathbf y^*_i$ en $\mathbf X^*_i$ . Así que todos los diagnósticos residuales incorporados del OLS resultante pueden utilizarse aquí .

Lo que tenemos que hacer es:

  1. estimación $\boldsymbol \Sigma_i$ a partir de las estimaciones (marginales) del componente residual o de la varianza en modelo lineal mixto;
  2. volver a ajustar una regresión OLS utilizando los datos transformados.

La regresión OLS asume observaciones independientes con varianza homogénea, por lo que se pueden aplicar técnicas de diagnóstico estándar a sus residuos.

Encontrará muchos más detalles en el capítulo 10 "Análisis y diagnósticos residuales" del libro Análisis longitudinal aplicado . También discutieron la transformación del residuo con $\mathbf L_i$ y hay algunos gráficos de residuos (transformados) (frente a los valores predichos o predictores). En el apartado 10.8 "Lecturas complementarias" y en las notas bibliográficas se incluyen más lecturas.

Además, en mi opinión, dado que asumimos $\boldsymbol \epsilon$ son independientes con varianza homogénea, podemos comprobar estos supuestos en los residuos condicionales utilizando las herramientas de la regresión estándar.

0 votos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X