3 votos

GEEs en caso de un pequeño número de conglomerados con un tamaño de conglomerado muy heterogéneo

Mi conjunto de datos incluye 400 registros. Cada registro incluye valores para la variable de resultado binaria $y$ y 12 variables predictoras categóricas $x_1, ..., x_{12}$ La mayoría de ellos también son binarios. Los registros proceden de 10 estudios diferentes, de los cuales uno es mucho más amplio que los demás (aporta casi un tercio de los registros, mientras que cada uno de los estudios restantes aporta entre 4 y 30 registros).

Mi plan es ajustar un modelo de regresión logística. Como no puedo descartar que los registros del mismo estudio estén correlacionados, me planteo utilizar GEEs en lugar de un modelo de regresión logística ordinaria. Los registros del mismo estudio formarían los clusters. Como estructura de correlación de trabajo utilizaría "intercambiable". Sin embargo, todavía no estoy seguro de que los GEE sean un enfoque adecuado en mi caso, que se distingue por

  1. el escaso número de conglomerados (a saber, diez)
  2. las grandes diferencias en el tamaño de los grupos.

¿Hay algún consejo/experiencia al respecto? He encontrado en la literatura que en realidad se necesitarían 40, 50 o incluso más conglomerados (las opiniones parecen divergir) para obtener errores "sándwich" fiables para las estimaciones de los parámetros del modelo. Para un número menor de conglomerados, sería necesaria alguna corrección. Sin embargo, no he encontrado mucho sobre cómo aplicar precisamente esta corrección, ni sobre la segunda cuestión, si las diferencias en el tamaño de los conglomerados afectan a los resultados de los GEE. Agradecería mucho cualquier consejo.

3voto

EvilRyry Puntos 231

Existen enfoques de bootstrap agrupado, incluyendo el percentil-t y el salvaje. Véase Cameron y Miller, 2015: Guía del profesional para la inferencia robusta de clústeres .

Una cosa que no veo mencionada en el artículo de Cameron y Miller, pero que no veo ninguna razón por la que no pueda aplicarse en el contexto de los datos agrupados, es modificar el enfoque del percentil-t de los grupos utilizando una transformación estabilizadora de la varianza, como se discute en Tibshirani, 1988: Estabilización de la varianza y el Bootstrap .

Otra opción deriva las estimaciones de varianza robustas de los clusters sobre la base de la estimación de regresiones separadas para cada cluster. Véase Ibragimov & Müller, 2010: Correlación basada en el estadístico t e inferencia robusta de la heterogeneidad Aunque he visto una diapositiva en la que Cameron advierte que este enfoque no es bueno si hay alguna correlación entre grupos (como los efectos fijos de tiempo en los escenarios de datos de panel).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X