Mi conjunto de datos incluye 400 registros. Cada registro incluye valores para la variable de resultado binaria $y$ y 12 variables predictoras categóricas $x_1, ..., x_{12}$ La mayoría de ellos también son binarios. Los registros proceden de 10 estudios diferentes, de los cuales uno es mucho más amplio que los demás (aporta casi un tercio de los registros, mientras que cada uno de los estudios restantes aporta entre 4 y 30 registros).
Mi plan es ajustar un modelo de regresión logística. Como no puedo descartar que los registros del mismo estudio estén correlacionados, me planteo utilizar GEEs en lugar de un modelo de regresión logística ordinaria. Los registros del mismo estudio formarían los clusters. Como estructura de correlación de trabajo utilizaría "intercambiable". Sin embargo, todavía no estoy seguro de que los GEE sean un enfoque adecuado en mi caso, que se distingue por
- el escaso número de conglomerados (a saber, diez)
- las grandes diferencias en el tamaño de los grupos.
¿Hay algún consejo/experiencia al respecto? He encontrado en la literatura que en realidad se necesitarían 40, 50 o incluso más conglomerados (las opiniones parecen divergir) para obtener errores "sándwich" fiables para las estimaciones de los parámetros del modelo. Para un número menor de conglomerados, sería necesaria alguna corrección. Sin embargo, no he encontrado mucho sobre cómo aplicar precisamente esta corrección, ni sobre la segunda cuestión, si las diferencias en el tamaño de los conglomerados afectan a los resultados de los GEE. Agradecería mucho cualquier consejo.