24 votos

GEE: elección de la estructura de correlación de trabajo adecuada

Soy un epidemiólogo que intenta comprender los GEE para analizar correctamente un estudio de cohortes (utilizando la regresión de Poisson con un enlace logarítmico, para estimar el riesgo relativo). Tengo algunas preguntas sobre la "correlación de trabajo" que me gustaría que alguien con más conocimientos me aclarara:

(1) Si tengo mediciones repetidas en el mismo individuo, ¿suele ser más razonable suponer una estructura intercambiable? (¿O una autorregresiva si las mediciones muestran una tendencia)? ¿Qué ocurre con la independencia? ¿Existe algún caso en el que se pueda suponer la independencia de las mediciones en el mismo individuo?

(2) ¿Existe alguna forma (razonablemente sencilla) de evaluar la estructura adecuada examinando los datos?

(3) He observado que, al elegir una estructura de independencia, obtengo las mismas estimaciones puntuales (pero errores estándar más bajos) que al ejecutar una regresión de Poisson simple (utilizando R, función glm() y geeglm() del paquete geepack ). ¿Por qué ocurre esto? Entiendo que con los GEE se estima un modelo promediado de población (en contraste con el específico de un sujeto), por lo que se deberían obtener las mismas estimaciones puntuales sólo en el caso de la regresión lineal.

(4) Si mi cohorte se encuentra en varios lugares (pero una medición por individuo), ¿debo elegir una correlación de trabajo independiente o intercambiable, y por qué? Es decir, los individuos de cada sitio siguen siendo independientes entre sí, ¿no? Así, para un modelo específico para un sujeto, por ejemplo, especificaría el sitio como un efecto aleatorio. Sin embargo, con GEE, independencia e intercambiable dan estimaciones diferentes y no estoy seguro de cuál es mejor en términos de supuestos subyacentes.

(5) ¿Puede GEE manejar una agrupación jerárquica de 2 niveles, es decir, una cohorte multisitio con medidas repetidas por individuo? En caso afirmativo, ¿qué debo especificar como variable de agrupación en geeglm() y ¿cuál debería ser la correlación de trabajo si se supone, por ejemplo, "independencia" para el primer nivel (sitio) e "intercambiable" o "autorregresiva" para el segundo nivel (individuo)?

Entiendo que son bastantes preguntas, y algunas de ellas pueden ser bastante básicas, pero aún así muy difíciles de entender para mí (¿y quizás para otros novatos?). Por lo tanto, cualquier ayuda es muy apreciada y sinceramente, y para mostrar esto he comenzado una recompensa.

17voto

alexs77 Puntos 36
  1. No necesariamente. Con conglomerados pequeños, un diseño desequilibrado y un ajuste incompleto de los factores de confusión dentro del conglomerado, la correlación intercambiable puede ser más ineficiente y sesgada en relación con la GEE de independencia. Esos supuestos también pueden ser bastante fuertes. Sin embargo, cuando se cumplen esos supuestos, se obtiene una inferencia más eficiente con la intercambiable. Nunca he encontrado un caso en el que las estructuras de correlación AR-1 tengan sentido, ya que es poco común tener mediciones que estén equilibradas en el tiempo (trabajo con datos de sujetos humanos).

  2. Bueno, explorar la correlación es bueno y debe hacerse en el análisis de datos. Sin embargo, no debería guía toma de decisiones. Puede utilizar variogramas y lorelogramas para visualizar la correlación en estudios longitudinales y de panel. La correlación intracluster es una buena medida del grado de correlación dentro de los clusters.

  3. La estructura de correlación en GEE, a diferencia de los modelos mixtos, no afecta a la marginal estimaciones de los parámetros (que está estimando con GEE). Sin embargo, sí afecta a las estimaciones del error estándar. Esto es independiente de cualquier función de enlace. La función de enlace en la GEE es para el modelo marginal.

  4. Los lugares pueden ser fuentes de variación no medida, como los dientes dentro de una boca o los alumnos dentro de un distrito escolar. Existe la posibilidad de que haya factores de confusión a nivel de conglomerado en estos datos, como la propensión genética a la caries dental o la financiación comunitaria de la educación, por lo que se obtendrán mejores estimaciones del error estándar utilizando una estructura de correlación intercambiable.

  5. El cálculo de los efectos marginales en un GEE es complicado cuando no están anidados pero se puede hacer . Anidar es fácil, y se hace tal y como has dicho.

7voto

gauss Puntos 110

(1) Es probable que necesite algún tipo de estructura autorregresiva, simplemente porque esperamos que las mediciones tomadas a mayor distancia estén menos correlacionadas que las tomadas a menor distancia. Intercambiable supondría que todas están igualmente correlacionadas. Pero como con todo lo demás, depende.

(2) Creo que este tipo de decisión se reduce a pensar en cómo se generaron los datos, en lugar de ver cómo se ven.

(4) depende. Por ejemplo, los niños anidados en escuelas no deberían, en la mayoría de los casos, tratarse como independientes. Debido a los patrones sociales, etc., si sé algo sobre un niño de una escuela determinada, es probable que sepa al menos un poco sobre otros niños de la misma escuela. Una vez utilicé GEE para estudiar las relaciones entre diferentes indicadores sociales y económicos y la prevalencia de la obesidad en una cohorte de nacimiento en la que los participantes estaban anidados en barrios. Utilicé una estructura intercambiable. Puede encontrar el papel aquí y comprobar algunas de las referencias, incluyendo 2 de revistas epi.

(5) Aparentemente sí (por ejemplo, véase este ejemplo ), pero no puedo ayudar con las especificaciones de R para hacer esto.

Zeger SL, Liang KY, Albert PS. Models for longitudinal data: a generalized estimating equation approach. Biometrics. 1988;44:1049-60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. To GEE or not to GEE: comparing estimating function and likelihood-based methods for estimating the associations between neighborhoods and health. Epidemiology. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Statistical analysis of correlated data using generalized estimating equations: an orientation. Am J Epidemiol. 2003;157:364.

1voto

sd2k9 Puntos 21

(0) Comentarios generales: la mayoría de los modelos que veo en crossvalidated son demasiado complicados. Simplifíquelos si es posible. A menudo merece la pena modelizar con GEE y modelos mixtos para comparar los resultados.
(1) Sí. Elija intercambiable. Mi respuesta inequívoca se basa en la ventaja más cacareada de la GEE: la resistencia de las estimaciones a las suposiciones realizadas.
Si mira los estudios en su campo debería ver que el intercambio es la opción por defecto. No significa que sea la mejor, pero debería ser la primera a considerar. Aconsejar exch será el mejor consejo sin tener un conocimiento detallado de tus datos.
(2) Sí, existen enfoques basados en datos como "QIC". Este es un ejemplo de Stata, pero ampliamente aceptado como una opción razonable, aunque muy rara vez se utiliza en la práctica: http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Las estimaciones puntuales nunca son exactamente iguales (a menos que se utilice una estructura de correlación independiente), pero suelen ser bastante parecidas. Puede encontrar muchos artículos en los que se comparan estimaciones de modelos de efectos simples, geométricos o mixtos para hacerse una idea ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) La mayoría de los libros de texto también tienen una tabla o dos para esto. Para una estructura de correlación independiente, básicamente está ejecutando el modelo de Poisson con SE robustos. Así que las estimaciones serán exactamente las mismas. Los SE suelen ser mayores. Pero a veces los SE robustos son más pequeños (así es la vida: si está interesado, google le dará una explicación sin dolor).
(4) Véanse los puntos (1) y (2) anteriores.
(5) No. O mejor dicho, puedes hacer cualquier cosa si te esfuerzas lo suficiente, pero muy pocas veces merece la pena el esfuerzo.

0voto

Jonathan Levy Puntos 1

Estás utilizando un enfoque equivocado con un gee para hacer lo que estás haciendo porque no conoces la estructura y tus resultados serán probablemente confusos. Consulte a Jamie Robinson esto. Usted necesita utilizar largo. TMLE (mark van der laan) o tal vez un gee con pesos iptw. No tener en cuenta la correlación subestima la varianza. Piense que si todas las medidas repetidas estuvieran correlacionadas al 100%, entonces usted tendría efectivamente muchas menos observaciones (esencialmente sólo n para sus n sujetos) y n más pequeño significa mayor varianza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X