23 votos

Análisis Bayesiano de Supervivencia: por favor, ¡escríbame un prior para Kaplan Meier!

Considere observaciones censuradas a la derecha, con eventos en tiempos $t_1, t_2, \dots$ . El número de individuos susceptibles en el momento $i$ es $n_i$ y el número de sucesos en el momento $i$ es $d_i$ .

El estimador de Kaplan-Meier o de producto surge de forma natural como MLE cuando la función de supervivencia es una función escalonada $S(t) = \prod_{i : t_i < t} \alpha_i$ . La probabilidad es entonces $$ L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} $$ y la MLE es $\widehat\alpha_i = 1 - {d_i\over n_i}$ .

Bien, ahora supongamos que quiero ser bayesiano. Necesito algún tipo de prior ``natural'' con el que multiplicaré $L(\alpha)$ ¿verdad?

Googleando las palabras clave obvias encontré que el proceso Dirichlet es un buen prior. Pero por lo que yo entiendo, es también un prior en los puntos de discontinuidad $t_i$ ?

Sin duda es muy interesante y estoy deseando conocerlo, sin embargo me conformaría con algo más sencillo. Empiezo a sospechar que no es tan fácil como pensaba al principio, y es hora de pediros consejo...

Muchas gracias de antemano.

PD: Algunas precisiones sobre lo que espero Me interesan las explicaciones (lo más sencillas posibles) sobre la forma de manejar la a priori del proceso Dirichlet, sin embargo creo que debería ser posible utilizar simplemente una a priori sobre la $\alpha_i$ - que es una prioridad sobre las funciones escalonadas con discontinuidades en $t_i$ .

Creo que la "forma global" de las funciones escalonadas muestreadas en la prior no debería depender de la $t_i$ debe haber una familia subyacente de funciones continuas que se aproximen mediante estas funciones escalonadas.

No sé si el $\alpha_i$ debería ser independiente (lo dudo). Si lo son, creo que esto implica que el anterior $\alpha_i$ depende de $\Delta t_i = t_i - t_{i-1}$ y si denotamos su distribución por $A(\Delta t)$ entonces el producto de a $A(\Delta_1)$ por una variable independiente $A(\Delta_2)$ es una variable $A(\Delta_1+\Delta_2)$ variable. Aquí parece que log- $\Gamma$ variables pueden ser útiles.

Pero aquí básicamente estoy atascado. No escribí esto al principio porque no quería dirigir todas las respuestas en esta dirección. Agradecería especialmente respuestas con referencias bibliográficas que me ayuden a justificar mi elección final.

12voto

patfla Puntos 1

Tenga en cuenta que debido a que su función de probabilidad es un producto de $ \alpha_i $ funciones - los datos te están diciendo que no hay pruebas de correlación entre ellas. Tenga en cuenta que la $ d_i $ las variables ya están escaladas para tener en cuenta el tiempo. Un período de tiempo más largo significa más posibilidades de que se produzcan acontecimientos, lo que generalmente significa un mayor $ d_i $ .

La forma más básica de "volverse bayesiano" aquí es utilizar priores uniformes independientes $ p (\alpha_i)=1 $ . Tenga en cuenta que $0 <\alpha_i <1 $ por lo que se trata de un prior adecuado, por lo que el posterior también es adecuado. La posterior es una distribución beta independiente con parámetros $ p (\alpha_i)\sim beta (n_i-d_i+1, d_i+1) $ . Esto puede simularse fácilmente para generar la distribución posterior de la curva de supervivencia, utilizando rbeta () en R, por ejemplo.

Creo que esto responde a su pregunta principal sobre un método "más sencillo". A continuación se muestra sólo el comienzo de una idea para crear un modelo mejor, que conserva la forma KM flexible para la función de supervivencia.

Sin embargo, creo que el principal problema de la curva KM está en la función de Supervivencia, y no en la anterior. Por ejemplo, ¿por qué la $ t_i $ corresponden a puntos temporales observados? ¿No tendría más sentido situarlos en puntos correspondientes a tiempos de eventos significativos basados en el proceso real? Si los puntos temporales observados están demasiado alejados, la curva KM será "demasiado suave". Si están demasiado cerca, la curva de KM será "demasiado áspera" y podría presentar cambios bruscos. Una forma de resolver el problema de la "excesiva suavidad" consiste en aplicar una prioridad correlacionada a $\alpha $ tal que $\alpha_i\approx \alpha_{i+1} $ . El efecto de esta prioridad será reducir los parámetros cercanos. Se podría utilizar en el espacio "log-odds $\eta_i=\log\left (\frac {\alpha_i}{1-\alpha_i}\right) $ y utilizamos una caminata aleatoria de orden kth a priori sobre $\eta $ . Para un paseo aleatorio de primer orden esto introduce penalizaciones de la forma $-\tau(\eta_i -\eta_{i-1})^2 $ en la log-verosimilitud. El software BayesX tiene muy buena documentación sobre este tipo de suavizado. Básicamente, elegir el orden k es como hacer un polinomio local de orden k. Si le gustan los splines, elija k=3. Por supuesto, al utilizar una rejilla temporal "fina" tendrá puntos temporales sin observaciones. Sin embargo, esto complica su función de verosimilitud, como el $ n_i, d_i$ faltan para algunos $i $ . Por ejemplo $( t_0,t_1) $ se dividió en 3 intervalos "más finos $(t_{00}, t_{01}, t_{02}, t_{10}) $ entonces no sabes $ n_{02}, n_{10}, d_{01}, d_{02}, d_{10} $ pero sólo $ n_1=n_{01}$ y $ d_1=d_{01}+d_{02}+d_{10} $ . Así que probablemente necesitaría añadir estos "datos que faltan" y utilizar un algoritmo EM o quizás VB (siempre que no vaya por el camino mcmc).

Espero que esto te sirva para empezar.

5voto

Loom Puntos 116

A los lectores que se enfrenten al problema de pasar a la bayesiana para estimar funciones de supervivencia que acepten la censura derecha, les recomendaría el enfoque bayesiano no paramétrico desarrollado por F Mangili, A Benavoli et al. La única especificación a priori es un parámetro (de precisión o fuerza). Evita la necesidad de especificar el proceso Dirichlet en caso de falta de información a priori. Los autores proponen (1) - un estimador robusto de las curvas de supervivencia y sus intervalos creíbles para la probabilidad de supervivencia (2) - Un test en la diferencia de supervivencia de individuos de 2 poblaciones independientes que presenta varios beneficios sobre el clásico log rank test u otros tests no paramétricos. Véase el paquete R IDPsurvival y esta referencia: Análisis de supervivencia fiable basado en el proceso de Dirichlet. F Mangili et al. Biometrical Journal. 2014 .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X