25 votos

Tamaño mínimo de la muestra por cluster en un modelo de efectos aleatorios

¿Existe una razón para el número de observaciones por cluster en un modelo de efectos aleatorios? Tengo un tamaño de muestra de 1.500 con 700 conglomerados modelados como efecto aleatorio intercambiable. Tengo la opción de fusionar conglomerados para construir menos conglomerados, pero más grandes. Me pregunto cómo puedo elegir el tamaño mínimo de la muestra por cluster para obtener resultados significativos en la predicción del efecto aleatorio para cada cluster. ¿Existe un buen documento que explique esto?

30voto

Bruce ONeel Puntos 391

TL;DR : El tamaño mínimo de la muestra por conglomerado en un modelo de efectos mixtos es 1, siempre que el número de conglomerados sea adecuado y la proporción de conglomerados únicos no sea "demasiado alta"

La versión más larga:

En general, el número de clusters es más importante que el número de observaciones por cluster. Con 700, está claro que no tienes ningún problema.

Los tamaños pequeños de los conglomerados son bastante comunes, especialmente en las encuestas de ciencias sociales que siguen diseños de muestreo estratificado, y hay un conjunto de investigaciones que han estudiado el tamaño de la muestra a nivel de conglomerado.

Si bien el aumento del tamaño del conglomerado aumenta la potencia estadística para estimar los efectos aleatorios (Austin y Leckie, 2018), los tamaños de conglomerado pequeños no conducen a un sesgo grave (Bell et al, 2008; Clarke, 2008; Clarke y Wheaton, 2007; Maas y Hox, 2005). Por lo tanto, el tamaño mínimo de la muestra por clúster es 1.

En particular, Bell, et al (2008) realizaron un estudio de simulación de Monte Carlo con proporciones de conglomerados únicos (conglomerados que contienen una sola observación) que oscilaban entre el 0% y el 70%, y descubrieron que, siempre que el número de conglomerados fuera grande (~500), los tamaños pequeños de los conglomerados no tenían casi ningún impacto en el sesgo y el control del error de tipo 1.

También informaron de muy pocos problemas de convergencia del modelo en cualquiera de sus escenarios de modelización.

Para el escenario particular del PO, sugeriría ejecutar el modelo con 700 clusters en primera instancia. A menos que haya un problema claro con esto, yo no me inclinaría a fusionar clusters. He realizado una simulación sencilla en R:

Aquí creamos un conjunto de datos agrupados con una varianza residual de 1, un único efecto fijo también de 1, 700 agrupaciones, de las cuales 690 son unicolores y 10 tienen sólo 2 observaciones. Ejecutamos la simulación 1000 veces y observamos los histogramas de los efectos fijos y aleatorios residuales estimados.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

enter image description here enter image description here

Como se puede ver, los efectos fijos están muy bien estimados, mientras que los efectos aleatorios residuales parecen estar un poco sesgados a la baja, pero no de forma drástica:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 

El PO menciona específicamente la estimación de los efectos aleatorios a nivel de cluster. En la simulación anterior, los efectos aleatorios se crearon simplemente como el valor de cada Subject (multiplicado por 100). Evidentemente, no se distribuyen normalmente, como se supone en los modelos lineales de efectos mixtos; sin embargo, podemos extraer las modalidades (condicionales) de los efectos a nivel de conglomerado y compararlas con los valores reales. Subject Identificaciones:

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

enter image description here

enter image description here

El histograma se aparta un poco de la normalidad, pero esto se debe a la forma en que hemos simulado los datos. Sigue habiendo una relación razonable entre los efectos aleatorios estimados y los reales.

Referencias:

Peter C. Austin & George Leckie (2018) El efecto del número de conglomerados y el tamaño de los conglomerados sobre la potencia estadística y las tasas de error de tipo I cuando se prueban los componentes de la varianza de los efectos aleatorios en modelos de regresión lineal y logística multinivel, Journal of Statistical Computation and Simulation, 88:16, 3151-3163, DOI: 10.1080/00949655.2018.1504945

Bell, B. A., Ferron, J. M., & Kromrey, J. D. (2008). Tamaño de los clusters en los modelos multinivel: el impacto de las estructuras de datos dispersos en las estimaciones puntuales y de intervalo en los modelos de dos niveles . Actas del JSM, Sección de Métodos de Investigación de Encuestas, 1122-1129.

Clarke, P. (2008). ¿Cuándo se puede ignorar la agrupación a nivel de grupo? Modelos multinivel frente a modelos de un solo nivel con datos dispersos . Journal of Epidemiology and Community Health, 62(8), 752-758.

Clarke, P., y Wheaton, B. (2007). Cómo abordar la escasez de datos en la investigación contextual de la población mediante el análisis de conglomerados para crear barrios sintéticos . Sociological Methods & Research, 35(3), 311-351.

Maas, C. J., y Hox, J. J. (2005). Tamaños de muestra suficientes para la modelización multinivel . Metodología, 1(3), 86-92.

3 votos

+1 gran respuesta. Relacionado: He tenido problemas con modelos logísticos multinivel en los que aproximadamente la mitad de los clusters sólo tienen 1 observación. Véase aquí: stats.stackexchange.com/a/358460/130869

7voto

user219012 Puntos 1

En los modelos mixtos, los efectos aleatorios suelen estimarse mediante la metodología de Bayes empírica. Una característica de esta metodología es la contracción. En concreto, el estimado los efectos aleatorios se reducen hacia la media general del modelo descrito por la parte de efectos fijos. El grado de contracción depende de dos componentes:

  1. La magnitud de la varianza de los efectos aleatorios comparada con la magnitud de la varianza de los términos de error. Cuanto mayor sea la varianza de los efectos aleatorios en relación con la varianza de los términos de error, menor será el grado de contracción.

  2. El número de mediciones repetidas en los grupos. Las estimaciones de efectos aleatorios de los conglomerados con más mediciones repetidas se reducen menos hacia la media general en comparación con los conglomerados con menos mediciones.

En su caso, el segundo punto es más relevante. Sin embargo, ten en cuenta que la solución que sugieres de fusionar grupos puede afectar también al primer punto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X