12 votos

¿Cómo puedo agrupar los valores p de los conjuntos de datos imputados de forma múltiple?

Me preocupa el problema de que me gustaría hacer un bootstrap del valor p para una estimación de $\theta$ a partir de datos de imputación múltiple (IM), pero no tengo claro cómo combinar los valores p entre los conjuntos de IM.

Para los conjuntos de datos de IM, el enfoque estándar para llegar a la varianza total de las estimaciones utiliza las reglas de Rubin. Véase aquí para una revisión de la agrupación de conjuntos de datos de IM. La raíz cuadrada de la varianza total sirve como estimación del error estándar de $\theta$ . Sin embargo, para algunos estimadores la varianza total no tiene una forma cerrada conocida o la distribución muestral no es normal. El estadístico ${\theta}/{se(\theta)}$ puede entonces no estar distribuido en t, ni siquiera asintóticamente.

Por lo tanto, en el caso de los datos completos, una opción alternativa es realizar un bootstrap de la estadística para encontrar la varianza, un valor p y un intervalo de confianza, incluso si la distribución de la muestra no es normal y se desconoce su forma cerrada. En el caso de los IM hay entonces dos opciones:

  • Agrupar la varianza de los conjuntos de datos de las IM.
  • Agrupar el valor p o los límites de confianza en los conjuntos de datos de los IM

La primera opción volvería a utilizar las reglas de Rubin. Sin embargo, creo que esto es problemático, si $\theta$ tiene una distribución de muestreo no normal. En esta situación (o, en general, en todas las situaciones), el valor p de bootstrap puede utilizarse directamente. Sin embargo, en el caso de los IM, esto daría lugar a múltiples valores p o intervalos de confianza, que deben agruparse entre los conjuntos de datos de los IM.

Así que mi pregunta es: ¿cómo debo agrupar múltiples valores p (o intervalos de confianza) de bootstrap a través de conjuntos de datos imputados múltiples?

Agradecería cualquier sugerencia sobre cómo proceder, gracias.

5voto

Stef van Buuren Puntos 1130

Creo que ambas opciones dan como resultado la respuesta correcta. En general, preferiría el método 1, ya que preserva toda la distribución.

Para el método 1, se hace un bootstrap del parámetro $k$ veces dentro de cada uno de los $m$ Soluciones MI. A continuación, basta con mezclar las $m$ distribuciones bootstrap para obtener su densidad final, que ahora consiste en $k \times m$ muestras que incluyen la variación entre imputaciones. A continuación, trátelo como una muestra bootstrap convencional para obtener intervalos de confianza. Utilice el bootstrap bayesiano para las muestras pequeñas. No conozco ningún trabajo de simulación que investigue este procedimiento, y en realidad se trata de un problema abierto que hay que investigar.

Para el método 2, utilice el procedimiento Licht-Rubin. Véase ¿Cómo se obtienen los valores p agrupados en pruebas realizadas en conjuntos de datos imputados múltiples?

1voto

Jamie Brennan Puntos 86

No es una bibliografía con la que esté familiarizado, pero una forma de enfocar esto podría ser ignorar el hecho de que se trata de valores p de bootstrap, y mirar la bibliografía sobre la combinación de valores p a través de conjuntos de datos de imputación múltiple.

En ese caso, Li, Meng, Raghunathan y Rubin (1991) se aplica. El procedimiento se basa en las estadísticas de cada uno de los conjuntos de datos imputados, ponderadas mediante una medida de la pérdida de información debida a la imputación. Se encuentran con problemas relacionados con la distribución conjunta de las estadísticas entre las imputaciones, y hacen algunas suposiciones simplificadoras.

De interés relacionado es Meng (1994) .

Actualización

En la página web se describe un procedimiento para combinar los valores p de los conjuntos de datos con imputación múltiple. disertación de Christine Licht, cap. 4 . La idea, que atribuye a Don Rubin, consiste esencialmente en transformar los valores p para que se distribuyan normalmente, lo que permite combinarlos entre conjuntos de datos de IM utilizando las reglas estándar para la combinación de estadísticas z.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X