Processing math: 100%

6 votos

La distribución de muestreo está sesgada en una inferencia bayesiana completamente de MCMC en modelos de PH de Cox

Usé el método MCMC para estimar modelos lineales con una inferencia bayesiana completa anteriormente, y no tuve ningún problema con los coeficientes estimados. Recientemente, usé la misma manera en un modelo semiparamétrico de Cox PH, y obtuve muchas distribuciones posteriores sesgadas que hacen que las medias posteriores de los parámetros estén bastante cerca del 2.5º percentil o del 97.5º percentil. Intenté aumentar el número de iteraciones (30,000 -> 50,000) y el paso (20 -> 40) con una eliminación inicial de 10,000 para hacer que la probabilidad posterior sea más simétrica. A veces se vuelve simétrica, pero otras veces sigue siendo sesgada eventualmente. También utilicé propuestas de prior condicionales y cuadrados mínimos ponderados iterativamente basados en modos posteriores para aumentar la tasa de aceptación, pero sigue siendo inútil. Los datos contienen más de 8,000 pacientes de cáncer con muy pocos datos faltantes. Las variables independientes son binarias o de escala. Hasta ahora no he descubierto la mejor manera de hacer que la distribución posterior sea robustamente simétrica. Lo que puedo hacer es ajustar repetidamente el modelo para ver si la probabilidad posterior no está sesgada por casualidad. La razón por la que me siento mal es que el ajuste del modelo consume mucho tiempo. Cada modelo tarda de 45 minutos a 75 minutos con diferentes combinaciones de variables, y tengo 8 modelos en tres causas específicas. Cada modelo fallido significa un desperdicio de 1 hora de mi vida. Espero que algunas personas puedan compartir sus experiencias para lidiar con este problema. El software correspondiente es BayesX. ¡Agradezco cualquier consejo!


Edición

Xi'an,

Como siempre obtengo una distribución posterior simétrica de los parámetros estimados en un modelo lineal mixto por MCMC, asumo que el modelo de Cox PH debería tener el mismo escenario. Aquí hay dos resultados de un modelo de Cox PH con mis datos:

Modelo 1: h(t,z)=ho(t)exp{intercept + sex + white + agedx + history}

  Variable      media    Desv. Est.  2.5% percentil  mediana    97.5% percentil    
    const    -4.2486    0.29328    -4.70006   0.249887    0.068665        
    sex    0.0123228    0.0514687  -4.52946   0.0175766   0.0982832       
    white  -0.239128    0.0644409  -4.51786  -0.195356    0.0779398       
    agedx 0.00786072    0.00370628 -4.53803   0.00139     0.0734418       
    history 0.627554    0.1464     -4.55214   0.0027441   0.800568   

Modelo 2: h(t,z)=ho(t)exp{intercept + sex + white + agedx + test}

 Variable      media    Desv. Est.  2.5% percentil  mediana    97.5% percentil    
    const   -4.12811    0.305912    -4.74401   -4.08631   0.134946        
    sex    0.0138823    0.0532634   -0.219711  0.0135219  0.148526        
    white  -0.227753    0.0639598   -0.372975 -0.223358   0.111341        
    agedx 0.00737788    0.0037846   -0.214211  0.00705715 0.101075        
    test   -0.151933    0.0518964   -0.271067 -0.152058   0.101187  

Tienen las mismas variables de sexo, blanco y agedx. Solo la última variable no es la misma. Las medias posteriores de sexo, blanco y agedx son similares, pero el percentil 2.5% y el percentil 97.5% son muy diferentes. Si la distribución posterior no puede ser simétrica, ¿cuál resultado es fiable?

10voto

Lev Puntos 2212

Solo por leer tu pregunta, me parece que estás mezclando el rendimiento computacional y la inferencia estadística. La distribución posterior de los parámetros no tiene por qué ser simétrica, por lo que esto no es un indicador de una mala convergencia de MCMC. Mi consejo es probar tu código en datos simulados (es decir, simulados a partir del propio modelo Cox semiparamétrico que estás estimando) donde conozcas los valores de los parámetros, para verificar la convergencia: las distribuciones posteriores deben cubrir los valores reales hasta cierto punto. ¡Y tómalo con calma, ya que una hora de simulación como máximo desperdicia una hora de vida de la computadora, no la tuya!

Respuesta Editada

Gracias por proporcionar las tablas. Muestran que la dispersión es mucho más amplia para el coeficiente correspondiente al utilizar la variable "history" que al utilizar la variable "test". Sin embargo, no puedo decir a partir de esas tablas si esto se debe a una mayor incertidumbre en la distribución posterior: ¿ambas variables están normalizadas de la misma manera? Si lo están, entonces efectivamente la distribución posterior es menos precisa sobre el coeficiente. Lo cual no significa que debas optar por el modelo que involucra "test" en lugar de "history". Esto requiere una comparación de modelos. (También encuentro curioso que los cuantiles posteriores del 2.5% en todos los coeficientes sean iguales para el Modelo 1. Y los cuantiles posteriores del 97.5% en todos los coeficientes sean iguales para el Modelo 2. Esto sugiere una alta correlación entre las covariables o incluso falta de identificabilidad...)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X