18 votos

¿Técnica adecuada de bootstrapping para datos agrupados?

Tengo una pregunta sobre la técnica de bootstrapping adecuada para utilizar con datos en los que hay una fuerte agrupación.

Se me ha encomendado la tarea de evaluar un modelo de predicción de efectos mixtos multivariantes sobre datos de reclamaciones de seguros, puntuando el modelo de referencia actual sobre datos de reclamaciones más recientes, con el fin de determinar en qué medida el modelo predice qué episodios de atención contienen la mayor frecuencia de sesiones (percentil 95 superior). La sensibilidad, la especificidad y el valor predictivo positivo (VPP) se utilizarán para evaluar la eficacia del modelo.

El bootstrap parece el camino correcto para construir intervalos de confianza para los porcentajes de sensibilidad, especificidad y VPP. Desafortunadamente, un bootstrap ingenuo no es apropiado dado que los datos de las reclamaciones están 1) correlacionados por el proveedor de atención, 2) agrupados en episodios de atención con visitas más frecuentes durante los meses más tempranos del episodio de atención (por lo que hay cierta autocorrelación). ¿Sería apropiada en este caso una variación de la técnica de bootstrap de bloques móviles?

O tal vez funcione un procedimiento de arranque en tres pasos: 1) muestreo con reemplazo de los distintos proveedores en los datos, luego 2) muestreo con reemplazo de los distintos episodios de atención de los proveedores seleccionados, luego 3) muestreo con reemplazo de las distintas reclamaciones dentro de cada episodio seleccionado.

Muchas gracias por cualquier sugerencia.

16voto

Mike Puntos 143

El segundo enfoque que sugieres parece razonable, pero resulta que es mejor muestrear sólo con reemplazo en el nivel más alto, y sin reemplazo en los restantes subniveles cuando se hace bootstrap de datos jerárquicos. Así lo demuestran las simulaciones de Ren et al (2010) : http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field y Welsh (2007) investigaron teóricamente diferentes enfoques para conjuntos de datos de 2 niveles y descubrieron que el muestreo con reemplazo en ambos niveles no era una idea brillante.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

La autocorrelación que mencionas es un problema grave. Por otro lado, la selección sin reemplazo de los episodios de atención preservaría la estructura de autocorrelación, por lo que tal vez no sea un problema tan grande.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X