Estoy investigando la mediana de supervivencia mediante Kaplan-Meier en diferentes estados para un tipo de cáncer. Hay grandes diferencias entre los estados. ¿Cómo puedo comparar la mediana de supervivencia entre todos los estados y determinar cuáles son significativamente diferentes de la mediana de supervivencia media de todo el país?
Respuestas
¿Demasiados anuncios?Una cosa a tener en cuenta con la curva de supervivencia de Kaplan-Meier es que es básicamente descriptivo y no inferencial . Es sólo una función de los datos, con un modelo increíblemente flexible detrás. Esto es un punto fuerte, porque significa que prácticamente no hay suposiciones que puedan romperse, pero un punto débil, porque es difícil generalizarlo y porque se adapta tanto al "ruido" como a la "señal". Si se quiere hacer una inferencia, básicamente hay que introducir algo desconocido que se desea conocer.
Ahora bien, una forma de comparar las medianas de los tiempos de supervivencia es hacer las siguientes suposiciones:
- Tengo una estimación del tiempo medio de supervivencia $t_{i}$ para cada uno de los $i$ estados, dada por la curva de Kaplan Meier.
- Espero que el verdadero tiempo medio de supervivencia, $T_{i}$ sea igual a esta estimación. $E(T_{i}|t_{i})=t_{i}$
- Estoy 100% seguro de que la verdadera mediana del tiempo de supervivencia es positiva. $Pr(T_{i}>0)=1$
Ahora bien, la forma "más conservadora" de utilizar estos supuestos es el principio de máxima entropía, por lo que se obtiene:
$$p(T_{i}|t_{i})= K exp(-\lambda T_{i})$$
Dónde $K$ y $\lambda$ se eligen de forma que la PDF se normalice y el valor esperado sea $t_{i}$ . Ahora tenemos:
$$1=\int_{0}^{\infty}p(T_{i}|t_{i})dT_{i} =K \int_{0}^{\infty}exp(-\lambda T_{i})dT_{i} $$ $$=K \left[-\frac{exp(-\lambda T_{i})}{\lambda}\right]_{T_{i}=0}^{T_{i}=\infty}=\frac{K}{\lambda}\implies K=\lambda $$ y ahora tenemos $E(T_{i})=\frac{1}{\lambda}\implies \lambda=t_{i}^{-1}$
Y así tienes un conjunto de distribuciones de probabilidad para cada estado.
$$p(T_{i}|t_{i})= \frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)\;\;\;\;\;(i=1,\dots,N)$$
Que dan una distribución de probabilidad conjunta de:
$$p(T_{1},T_{2},\dots,T_{N}|t_{1},t_{2},\dots,t_{N})= \prod_{i=1}^{N}\frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)$$
Ahora parece que quieres probar la hipótesis $H_{0}:T_{1}=T_{2}=\dots=T_{N}=\overline{t}$ donde $\overline{t}=\frac{1}{N}\sum_{i=1}^{N}t_{i}$ es la mediana del tiempo de supervivencia. La hipótesis alternativa más severa a contrastar es la de "cada estado es un copo de nieve único y hermoso". $H_{A}:T_{1}=t_{1},\dots,T_{N}=t_{N}$ porque es la alternativa más probable y, por tanto, representa la información que se pierde al pasar a la hipótesis más simple (una prueba "minimax"). La medida de la evidencia en contra de la hipótesis más simple viene dada por la odds ratio:
$$O(H_{A}|H_{0})=\frac{p(T_{1}=t_{1},T_{2}=t_{2},\dots,T_{N}=t_{N}|t_{1},t_{2},\dots,t_{N})}{ p(T_{1}=\overline{t},T_{2}=\overline{t},\dots,T_{N}=\overline{t}|t_{1},t_{2},\dots,t_{N})}$$ $$=\frac{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{t_{i}}{t_{i}}\right) }{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{\overline{t}}{t_{i}}\right) } =exp\left(N\left[\frac{\overline{t}}{t_{harm}}-1\right]\right)$$
Dónde
$$t_{harm}=\left[\frac{1}{N}\sum_{i=1}^{N}t_{i}^{-1}\right]^{-1}\leq \overline{t}$$
es la media armónica. Tenga en cuenta que las probabilidades siempre favorecerán al ajuste perfecto, pero no mucho si las medianas de los tiempos de supervivencia están razonablemente próximas. Además, esto le proporciona una forma directa de declarar la evidencia de esta prueba de hipótesis en particular:
las hipótesis 1-3 dan probabilidades máximas de $O(H_{A}|H_{0}):1$ contra la igualdad de los tiempos medios de supervivencia en todos los estados
Combine esto con una regla de decisión, una función de pérdida, una función de utilidad, etc., que diga lo ventajoso que es aceptar la hipótesis más simple, ¡y ya tiene su conclusión!
No hay límite a la cantidad de hipótesis que se pueden probar y para las que se pueden dar probabilidades similares. Basta con cambiar $H_{0}$ para especificar un conjunto diferente de posibles "valores verdaderos". Usted podría hacer "pruebas de significación" eligiendo la hipótesis como:
$$H_{S,i}:T_{i}=t_{i},T_{j}=T=\overline{t}_{(i)}=\frac{1}{N-1}\sum_{j\neq i}t_{j}$$
Así que esta hipótesis es verbalmente "estado $i$ tiene una mediana de supervivencia diferente, pero todos los demás estados son iguales". Y luego vuelva a hacer el cálculo de la odds ratio que hice antes. Aunque debe tener cuidado con cuál es la hipótesis alternativa. Cualquiera de las siguientes es "razonable" en el sentido de que pueden ser preguntas que te interese responder (y generalmente tendrán respuestas diferentes)
- mi $H_{A}$ definido anteriormente - ¿cuánto peor es $H_{S,i}$ en comparación con el ajuste perfecto?
- mi $H_{0}$ definido anteriormente, ¿cuánto mejor es $H_{S,i}$ en comparación con el ajuste medio?
- una diferente $H_{S,k}$ - cuánto cuesta el estado $k$ "más diferente" en comparación con el Estado $i$ ?
Ahora una cosa que se ha pasado por alto aquí es correlaciones entre estados: esta estructura supone que conocer la tasa media de supervivencia en un estado no dice nada sobre la tasa media de supervivencia en otro estado. Aunque esto pueda parecer "malo", no es tan difícil de mejorar, y los cálculos anteriores son buenos resultados iniciales fáciles de calcular.
Si se añaden conexiones entre estados, cambiarán los modelos de probabilidad y se observará efectivamente cierta "agrupación" de los tiempos medios de supervivencia. Una forma de incorporar correlaciones al análisis consiste en separar los tiempos de supervivencia reales en dos componentes, una "parte común" o "tendencia" y una "parte individual":
$$T_{i}=T+U_{i}$$
Y luego restringir la parte individual $U_{i}$ para tener media cero en todas las unidades y varianza desconocida $\sigma$ que se integrará utilizando un previo que describa el conocimiento que se tiene de la variabilidad individual, antes de observar los datos (o un previo de jeffreys si no se sabe nada, y medio cauchy si jeffreys causa problemas).
Pensé que sólo añadir a este tema que usted podría estar interesado en la regresión cuantil con censura. Bottai y Zhang 2010 propuso una "Regresión de Laplace" que puede hacer precisamente esta tarea, puede encontrar un PDF al respecto aquí . Existe un paquete para Stata para esto, todavía no se ha traducido a R aunque el paquete quantreg en R tiene una función para la regresión cuantil censurada, crq podría ser una opción.
Creo que el planteamiento es muy interesante y podría ser mucho más intuitivo para los pacientes que las relaciones de riesgo. Saber, por ejemplo, que el 50% de los que toman el fármaco sobreviven 2 meses más que los que no lo toman y los efectos secundarios les obligan a permanecer 1-2 meses en el hospital podría facilitar mucho la elección del tratamiento.
En primer lugar, visualizaría los datos: calcularía intervalos de confianza y errores estándar para la mediana de supervivencia en cada estado y mostraría los IC en un gráfico de bosque, las medianas y sus SE mediante un gráfico de embudo.
La "supervivencia media mediana en todo el país" es una cantidad que se estima a partir de los datos y, por tanto, tiene incertidumbre, de modo que no se puede tomar como valor de referencia nítido durante las pruebas de significación. Otra dificultad del planteamiento de la media de todos es que cuando se compara la mediana de un estado con ella, se está comparando la mediana con una cantidad que ya incluye esa cantidad como componente. Por lo tanto, es más fácil comparar cada estado con todos los demás. otros estados combinados. Esto puede hacerse realizando una prueba de rango logarítmico (o sus alternativas) para cada estado.
(Edición después de leer la respuesta de probabilityislogic: la prueba de rango logarítmico compara la supervivencia en dos (o más) grupos, pero no compara estrictamente la mediana. Si está seguro de que lo que desea comparar es la mediana, puede basarse en sus ecuaciones o utilizar el remuestreo también en este caso).
Ha etiquetado su pregunta como [comparaciones múltiples], así que supongo que también quiere ajustar (aumentar) sus valores p de forma que si ve al menos un valor p ajustado inferior al 5% podría concluir que "la mediana de supervivencia entre estados no es igual" al nivel de significación del 5%. Puede utilizar métodos genéricos y excesivamente conservadores como Bonferroni, pero el esquema de corrección óptimo tendrá en cuenta las correlaciones de los valores p. Asumo que no quiere incorporar ningún conocimiento a priori en el esquema de corrección, así que discutiré un esquema en el que el ajuste consiste en multiplicar cada valor p por la misma constante C.
Como no sé cómo deducir la fórmula para obtener el multiplicador C óptimo, utilizaría remuestreo . Bajo la hipótesis nula de que las características de supervivencia son las mismas en todos los estados, puede permutar las etiquetas estatales de los casos de cáncer y volver a calcular las medianas. Después de obtener muchos vectores remuestreados de valores p estatales, encontraría numéricamente el multiplicador C por debajo del cual menos del 95% de los vectores no incluyen valores p significativos y por encima del cual más del 95%. Si el intervalo parece amplio, aumentaría repetidamente el número de remuestreos en un orden de magnitud.