12 votos

Falta al Azar de Datos en GEE

Para un resultado continuas se analizaron mediante GEE lineal de enlace, usted tiene la garantía de que los errores estándar y los valores estimados son consistentes con una primera tendencia de los pedidos, independientemente de la distribución de resultados, heterocedasticidad, y leve la no-linealidad de los problemas. Las estimaciones puntuales de la GEE son los mismos que los obtenidos a partir de máxima verosimilitud (OLS), pero el error estándar de las estimaciones son de la HC sándwich de base de errores, y por tanto pantano hasta leve bits de modelo clásico supuesto de infracciones.

En los análisis longitudinales donde la deserción depende de las variables medidas (por ejemplo, la edad), sabe que la llamada "falta de mecanismo de datos" falta al azar (no faltan COMPLETAMENTE al azar, por Poco, Rubin, 2002) y, además, que el máximo de estimaciones de probabilidad de "no están sesgados" debido a la factorización de la probabilidad, incluyendo la falta de datos indicador y no se ve probabilidad de contribución debido a medir filas.

Mis preguntas son:

  1. Para ML estimados, completo análisis de casos considerados eficientes?
  2. Para GEE lineal enlace, son estimaciones de alguna manera sesgada a pesar de que sean los mismos que los obtenidos a partir de ML?
  3. Es el problema real que SEs de GEE con lineal de enlace no están garantizados para ser coherente? Más de lo que es atribuible al tamaño efectivo de la muestra de la pérdida se debe a completar el análisis de casos?
  4. No ponderación de la promesa para ayudar a remediar la SEs por encima y más allá del tamaño efectivo de la muestra de la pérdida se debe a completar el análisis de casos si hay otras razones por las que el GEE sería "malo" en este caso?

11voto

Andre Miller Puntos 182
  1. ML de estimación basado en una información completa de los casos no se considera eficiente y puede ser horriblemente sesgada. La probabilidad de base de caso completo de estimación es consistente, en general, sólo si los datos es MCAR. Si los datos de la MAR, a continuación, usted puede usar algo como EM o aumentación de datos para obtener eficiente de la probabilidad basada en las estimaciones. La correspondiente probabilidad de utilizar para hacer de máxima verosimilitud es el conjunto de los datos con los datos que faltan, es $$ \ell(\theta \mediados de Y_{obs}, X) = \log \int p( Y \mid \ X, \theta) \ d Y_{mis} $$ donde $Y$ es la respuesta y $X$ es el covariables.
  2. GEE estimación es parcial en virtud de MAR, a tan sólo como completar caso ML de estimación es parcial.
  3. La gente no uso habitual GEE, la estimación de estos problemas debido a que ambos son inconsistentes e ineficiente. Una solución fácil para el problema de coherencia, bajo el MAR, es el peso de las ecuaciones de estimación por su inverso de la probabilidad de ser observados para conseguir denominado IPW estimaciones. Es decir, resolver $$ \sum_{i=1}^N \frac{I(Y_i \mbox{ completo})\varphi(Y_i;X_i, \theta)}{\pi(Y_i;X_i, \theta)} = 0, $$ donde $\sum_i \varphi(Y_i; X_i, \theta)=0$ es la habitual de la ecuación de estimación y $\pi(Y;X,\theta)$ es la probabilidad de ser observados por completo dando las covariables y los datos. Por cierto, esto viola la probabilidad de principio y requiere de la estimación de la deserción escolar mecanismo, incluso si la missingness es ignorable, y puede también incrementa mucho la varianza de las estimaciones. Esto es todavía no es eficiente porque ignora las observaciones en las que tenemos datos parciales. El estado del arte de las ecuaciones de estimación son doblemente estimaciones sólidas que son consistentes si el modelo de respuesta o de abandono modelo está correctamente especificado y son esencialmente de la falta de datos de las versiones del GEEs. Además, se puede disfrutar de una eficiencia propiedad llamada local-semiparamétrico eficacia, lo que significa que alcanzar semiparamétrico eficiencia si todo está correctamente especificado. Véase, por ejemplo, este libro.
  4. La estimación de ecuaciones, que son coherentes y eficientes, esencialmente, todos requieren de ponderación por el inverso de la probabilidad de ser observados. EDIT: me refiero a esto para semiparamétrico consistencia en lugar de consistencia bajo un modelo paramétrico.

También debe tener en cuenta que normalmente en los estudios longitudinales con la deserción la deserción escolar puede depender tanto de la medición de variables de control, sino también en la respuesta a veces no observar, por lo que no puede decir "yo recogía todo creo que para ser asociados con la deserción escolar" y decir que usted tiene MAR. MAR es una auténtica hipótesis acerca de cómo funciona el mundo, y que no se puede comprobar a partir de los datos. Si dos personas con la misma respuesta de la historia y de la misma covariables están en estudio y uno se retira y uno no, MAR, esencialmente, los estados que puede utilizar el hombre que se quedó en aprender la distribución de el hombre que la abandonó, y esta es una muy fuerte de la asunción. En los estudios longitudinales, el consenso entre los expertos es que un análisis de sensibilidad a la MAR asunción es ideal, pero no creo que esto lo ha hecho en el mundo del software todavía.

Por desgracia, yo no soy consciente de ningún software para hacer doblemente estimación robusta, pero la probabilidad basada en la estimación es fácil (IMO la cosa más fácil de hacer es usar Bayesiano de software para el montaje, pero también hay un montón de software por ahí). Usted también puede hacer la inversa de la probabilidad de ponderación fácilmente, pero tiene problemas de estabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X