Me topé con este pregunta relacionada de 2010, y me pregunto si ha habido algún progreso en el uso de la imputación múltiple para los modelos de efectos mixtos ? Prefiero usar R, aunque también tengo disponible Stata.
Respuestas
¿Demasiados anuncios?Esta es una respuesta parcial en el mejor de los casos, pero es demasiado larga para un comentario.
La distribución asintótica de las estimaciones de la varianza también será normal, pero la asintótica aquí es en términos del número de conglomerados (unidades de nivel 2, PSU, como las llame su disciplina). Para obtener una buena distribución normal, es necesario tener varios cientos, o mejor miles, de ellos. Mientras que esto puede funcionar para algunas encuestas sociales/económicas que pueden tener más de 10.000 individuos seguidos a lo largo del tiempo, las aplicaciones biostáticas pueden tener unas pocas docenas, lo que es insuficiente. En definitiva, se trata de una cuestión de confianza en la normalidad asintótica. Yo evaluaría la distribución mediante una simulación con un tamaño de muestra determinado y juzgaría en función de ella.
Deduzco que los desarrolladores de R prefirieron imponer su cautela con respecto a las distribuciones muestrales finitas, muy probablemente porque en su aplicación biomédica típica, los tamaños de muestra no son suficientemente grandes. Los desarrolladores de Stata no tenían tales reservas, porque en sus aplicaciones econométricas típicas, el tamaño de la muestra puede no ser un problema muy acuciante.
Se trata de un ámbito interesante en el que yo también estoy trabajando. Datos hospitalarios similares. Pero mi dificultad ha sido elegir entre el modelo de efectos mixtos y el GEE para un modelo de predicción con imputación múltiple. Aunque naturalmente el modelo de efectos mixtos sería la primera opción, considerando el número de "clusters" (pacientes-12000) con múltiples admisiones pero con un tamaño de cluster más pequeño (2-10), el modelo de efectos mixtos parece llevar mucho tiempo computacionalmente (6-12 horas) y los tamaños de los efectos parecen estar sobreestimados.
Matemáticamente aún no se ha demostrado, pero parece la mejor solución disponible para una base de datos de gran tamaño, con imputación múltiple, miles de conglomerados y con un tamaño de conglomerado pequeño.