9 votos

¿Cuál es la mejor manera de combinar la inferencia MCMC con la imputación múltiple?

Puedo derivar un algoritmo MCMC para el muestreo de la distribución posterior de un vector de parámetros de interés, pero sólo a partir de un conjunto de datos que no tiene valores perdidos. El conjunto de datos real que quiero utilizar para la inferencia tiene una falta sustancial en sus covariables.

Un enfoque sería construir un algoritmo MCMC más complejo que, por ejemplo, rellene primero los datos que faltan con extracciones de la distribución predictiva posterior de los valores que faltan. Sin embargo, esto parece muy difícil.

Lo que preferiría hacer es utilizar un método estándar para generar múltiples imputaciones del conjunto de datos (como un Paquete MICE ), luego ejecutar mi algoritmo MCMC existente en cada conjunto de datos imputados y completos y luego recombinar en estimaciones finales de (por ejemplo) una expectativa posterior o un intervalo posterior para un parámetro de interés.

¿Existe un cuerpo de literatura que intente resolver los problemas de esta manera? ¿O hay una forma mucho mejor de hacerlo? ¿O este enfoque es erróneo o inviable? Cualquier indicación sería útil.

0voto

Bin0li Puntos 18

¿Está familiarizado con la censura en los modelos de análisis de supervivencia? La censura significa que un paciente fue eliminado del estudio sin morir explícitamente (al menos en el contexto del análisis de supervivencia.) Hay arquitecturas apropiadas para manejar la censura; sin embargo, es más una cuestión de arquitectura del modelo que del algoritmo de muestreo MCMC subyacente. Para explorar el análisis de supervivencia mediante PyMC3 (utiliza HMC), véase aquí .

En tu escrito, no queda claro si tienes un problema de análisis de supervivencia o algo diferente. No obstante, le recomendaría que abordara su problema desde la perspectiva de la arquitectura del modelo y no desde la perspectiva específica de la variante MCMC. Si pudiera proporcionar más detalles, nosotros (la comunidad) podríamos ofrecer algunas recomendaciones sobre cómo manejar los valores observados y latentes (censura).

No has dicho explícitamente que estás enfocando esto desde una perspectiva bayesiana, sin embargo, MCMC es muy común en el paradigma bayesiano, así que asumiré que prefieres ser lo más bayesiano posible. Dicho esto, imputar valores no es muy bayesiano en absoluto, ya que estarías añadiendo sesgos a tu conjunto de datos sin definirlos adecuadamente mediante distribuciones a priori. La censura es el camino a seguir para tener una "horquilla", por así decirlo, que distinga lo observado de lo latente, y esto será capturado muy bien por su distribución posterior.

-1voto

Taylor Puntos 692

Escribí un documento arxiv.org/abs/1907.09090 que describe cómo el enfoque pseudo-marginal puede imputar los datos que faltan. Sin embargo, 400 covariables suena difícil, para ser completamente honesto. Depende de qué tipo de distribuciones quieras poner en las columnas, el número de filas, cómo programes todo. ¿Intratable en tu caso? Probablemente, sí.

En la sección 3.3, describimos el enfoque (no el nuestro) que se parece a lo que quieres. Tal vez algunas referencias allí te den algunas fórmulas. Aquí tienes una cita:

La imputación múltiple (IM) genera múltiples conjuntos de datos completos mediante muestreo de varios conjuntos de valores plausibles para cada punto de datos que falta mediante el muestreo de la distribución predictiva posterior [19], [20], [7]. El mismo análisis se realiza por separado en cada conjunto de datos, y los resultados se combinan. Por ejemplo, en el contexto del de regresión, los parámetros del modelo derivados de cada conjunto de datos imputados de datos imputados [sic] se combinan mediante una media simple. Las varianzas de los parámetros Las varianzas de los parámetros se calculan promediando las varianzas individuales de de cada imputación, y la fórmula incluye un término adicional para para capturar la varianza entre imputaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X