TL;DR : El tamaño mínimo de la muestra por conglomerado en un modelo de efectos mixtos es 1, siempre que el número de conglomerados sea adecuado y la proporción de conglomerados únicos no sea "demasiado alta"
La versión más larga:
En general, el número de clusters es más importante que el número de observaciones por cluster. Con 700, está claro que no tienes ningún problema.
Los tamaños pequeños de los conglomerados son bastante comunes, especialmente en las encuestas de ciencias sociales que siguen diseños de muestreo estratificado, y hay un conjunto de investigaciones que han estudiado el tamaño de la muestra a nivel de conglomerado.
Si bien el aumento del tamaño del conglomerado aumenta la potencia estadística para estimar los efectos aleatorios (Austin y Leckie, 2018), los tamaños de conglomerado pequeños no conducen a un sesgo grave (Bell et al, 2008; Clarke, 2008; Clarke y Wheaton, 2007; Maas y Hox, 2005). Por lo tanto, el tamaño mínimo de la muestra por clúster es 1.
En particular, Bell, et al (2008) realizaron un estudio de simulación de Monte Carlo con proporciones de conglomerados únicos (conglomerados que contienen una sola observación) que oscilaban entre el 0% y el 70%, y descubrieron que, siempre que el número de conglomerados fuera grande (~500), los tamaños pequeños de los conglomerados no tenían casi ningún impacto en el sesgo y el control del error de tipo 1.
También informaron de muy pocos problemas de convergencia del modelo en cualquiera de sus escenarios de modelización.
Para el escenario particular del PO, sugeriría ejecutar el modelo con 700 clusters en primera instancia. A menos que haya un problema claro con esto, yo no me inclinaría a fusionar clusters. He realizado una simulación sencilla en R:
Aquí creamos un conjunto de datos agrupados con una varianza residual de 1, un único efecto fijo también de 1, 700 agrupaciones, de las cuales 690 son unicolores y 10 tienen sólo 2 observaciones. Ejecutamos la simulación 1000 veces y observamos los histogramas de los efectos fijos y aleatorios residuales estimados.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Como se puede ver, los efectos fijos están muy bien estimados, mientras que los efectos aleatorios residuales parecen estar un poco sesgados a la baja, pero no de forma drástica:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
El PO menciona específicamente la estimación de los efectos aleatorios a nivel de cluster. En la simulación anterior, los efectos aleatorios se crearon simplemente como el valor de cada Subject
(multiplicado por 100). Evidentemente, no se distribuyen normalmente, como se supone en los modelos lineales de efectos mixtos; sin embargo, podemos extraer las modalidades (condicionales) de los efectos a nivel de conglomerado y compararlas con los valores reales. Subject
Identificaciones:
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
El histograma se aparta un poco de la normalidad, pero esto se debe a la forma en que hemos simulado los datos. Sigue habiendo una relación razonable entre los efectos aleatorios estimados y los reales.
Referencias:
Peter C. Austin & George Leckie (2018) El efecto del número de conglomerados y el tamaño de los conglomerados sobre la potencia estadística y las tasas de error de tipo I cuando se prueban los componentes de la varianza de los efectos aleatorios en modelos de regresión lineal y logística multinivel, Journal of Statistical Computation and Simulation, 88:16, 3151-3163, DOI: 10.1080/00949655.2018.1504945
Bell, B. A., Ferron, J. M., & Kromrey, J. D. (2008). Tamaño de los clusters en los modelos multinivel: el impacto de las estructuras de datos dispersos en las estimaciones puntuales y de intervalo en los modelos de dos niveles . Actas del JSM, Sección de Métodos de Investigación de Encuestas, 1122-1129.
Clarke, P. (2008). ¿Cuándo se puede ignorar la agrupación a nivel de grupo? Modelos multinivel frente a modelos de un solo nivel con datos dispersos . Journal of Epidemiology and Community Health, 62(8), 752-758.
Clarke, P., y Wheaton, B. (2007). Cómo abordar la escasez de datos en la investigación contextual de la población mediante el análisis de conglomerados para crear barrios sintéticos . Sociological Methods & Research, 35(3), 311-351.
Maas, C. J., y Hox, J. J. (2005). Tamaños de muestra suficientes para la modelización multinivel . Metodología, 1(3), 86-92.