6 votos

¿GEE con covarianza de trabajo intercambiable frente a asumir independencia y utilizar errores estándar de Huber-White?

Estoy analizando un conjunto de datos que incluye 13000 estudiantes. Los estudiantes están agrupados en escuelas/grados. El ICC (coeficiente de correlación intraclase) muestra que los estudiantes de una misma escuela están correlacionados. Por lo tanto, tengo que tener en cuenta este efecto de agrupación. Una forma es ejecutar una regresión lineal y ejecutar el estimador de varianza robusto encima de eso para evitar obtener estimaciones sesgadas. ¿Podemos tener en cuenta el efecto de agrupación con el estimador tipo sándwich? . Creo que no podemos ya que la matriz epsilon^2 sigue siendo una matriz diagonal. Lo que creo que deberíamos hacer es ejecutar un modelo GEE con matriz varcov intercambiable para los estudiantes de un mismo colegio y luego deberíamos ejecutar el varcov robusto sobre el modelo GEE.

De todos modos, asumiendo que el estimador de sándwich por sí mismo puede dar cuenta del efecto de agrupación escolar He ajustado dos modelos GEE separados, uno con matriz varcov intercambiable y el otro con el estimador de varianza robusto (también conocido como Huber-White, estimador Sandwich o estimador de varianza empírica). La cuestión es que bajo ambos modelos obtengo la misma varianza estimada por cada covariable, pero mis estimaciones GEE intercambiables conducen a estimaciones beta mucho más grandes que también son estadísticamente significativas mientras que covariables beta similares no son significativas en GEE con estimador varcov robusto. Me pregunto por qué ocurre esto. Utilizo SAS 9.3 para ajustar mi modelo (proc GENMOD):

Intercambio:

repeated subject = SCHIID/type = EXCH;

Estimador empírico:

repeated subject = SCHIID/ covb;

9voto

Niall Puntos 51

Una forma es realizar una regresión lineal y ejecutar el estimador robusto de la varianza sobre ella para evitar la obtención de estimaciones sesgadas .

Un punto importante aquí es que tener bolsas de datos correlacionados no sesgo sus estimaciones en un modelo lineal - resulta en tener errores estándar inflados. En un modelo no lineal (por ejemplo, la regresión logística), se pueden obtener estimaciones sesgadas, ya que el efecto medio de la población es, en general, diferente del efecto específico individual, lo que no ocurre con un modelo lineal. Encontrará más información sobre esta distinción en esta respuesta

¿Podemos tener en cuenta el efecto de agrupación con el estimador tipo sándwich?

Por el título, supongo que te refieres a usar Errores estándar de Huber White sandwich para sus intervalos de confianza y $p$ -valores. Estos imponen una matriz de covarianza diagonal, pero son robustos a las entradas diagonales que pueden ser diferentes - por esa razón se utilizaron originalmente cuando hay una posible heteroscedasticidad en sus errores, lo que significa que la varianza del error no es constante. Pero, utilizando una ligera modificación de los errores estándar de Huber-White, en la que la "carne" del sándwich se sustituye por una estimación empírica de la matriz de covarianza dentro de un conglomerado (todavía llamados errores estándar de Huber-White) proporciona una inferencia que es robusta a la no independencia dentro de un cluster (¡pero no entre clusters!) - esta modificación se describe bastante claramente en un artículo de 2006 en El Estadístico Americano llamado Sobre el llamado "estimador Huber Sandwich" y los "errores estándar robustos" por David Freedman.

Este procedimiento es robusto a la no independencia dentro de un conglomerado en el sentido de que todavía le dará una inferencia asintóticamente insesgada (es decir, los niveles de confianza y $p$ -valores serán correctos) incluso si hay correlación dentro de un clúster. Sospecho que esto es lo que hace su código etiquetado como "Estimador empírico".

He ajustado dos modelos GEE separados, uno con la matriz varcov intercambiable y el otro con el estimador de varianza robusto (también conocido como Huber-White, estimador Sandwich o estimador de varianza empírica). La cuestión es que bajo ambos modelos obtengo la misma varianza estimada por cada covariable, pero mis estimaciones GEE intercambiables conducen a estimaciones beta mucho más grandes que también son estadísticamente significativas mientras que covariables beta similares no son significativas en GEE con estimador varcov robusto. Me pregunto por qué ocurre esto.

En general, el modelo GEE resuelve la ecuación

$$ \sum_{i=1}^{n} \frac{ \partial \mu_i }{ \partial \beta } V(\alpha)^{-1} (y_i - \mu_i) = 0$$

en función de los coeficientes de regresión, $\beta$ , donde $\mu_i = x_i \beta$ son los valores esperados de la agrupación $i$ respuesta, $y_i$ dado los predictores $x_i$ bajo el modelo especificado. $V(\alpha)^{-1}$ es la matriz de covarianza "de trabajo" de los elementos del cluster $i$ . (nota que $\mu_i=x_i \beta$ porque se trata de un modelo lineal, pero los GEEs pueden utilizar más generalmente una función de enlace para que $\mu_i=g(x_i \beta))$

Un punto clave aquí es que cuando se cambia la covarianza de trabajo, se cambia la ecuación de estimación, por lo tanto la $\beta$ que lo resuelva será diferente . Por ejemplo, si $V$ fue $\sigma^2$ por la diagonal y $0$ de la diagonal y $\mu_i = x_i \beta$ como lo hace aquí, entonces el estimador GEE es el estimador de mínimos cuadrados, que no resolverá esa ecuación en el caso intercambiable. Así que no es de extrañar que usted está recibiendo diferentes estimaciones de los parámetros. Puede ser una coincidencia que estés obteniendo los mismos errores estándar.

En su situación, sugeriría informar de los resultados que utilizaron la matriz de covarianza intercambiable, ya que. Mientras que la inferencia basada en GEE es consistente incluso cuando se especifica mal la estructura de correlación, se sabe que los estimadores GEE son más eficientes cuando se utiliza una estructura de covarianza más apropiada y, si se tiene evidencia de que hay grandes correlaciones intraclase dentro de una escuela, entonces la correlación intercambiable probablemente proporcionará una aproximación mucho más cercana a la verdadera estructura de asociación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X