10 votos

Recomendaciones para riesgos no proporcionales

Este es un problema que me ha atormentado durante mucho tiempo y no he encontrado buenas respuestas en los libros de texto, Google o Stack Exchange.

Dispongo de un conjunto de datos de más de 100.000 pacientes para los que se comparan cuatro tratamientos. La pregunta de investigación es si la supervivencia es diferente entre estos tratamientos después de ajustar por un grupo de variables clínicas/demográficas. A continuación se muestra la curva KM sin ajustar.

enter image description here

Todos los métodos que utilicé indicaban la existencia de riesgos no proporcionales (por ejemplo, curvas de supervivencia log-log sin ajustar, así como interacciones con el tiempo y la correlación de los residuos de Schoenfield y el tiempo de supervivencia clasificado, que se basaban en modelos ajustados de Cox PH). A continuación se muestra la curva de supervivencia log-log. Como puede verse, la forma de no proporcionalidad es un desastre. Aunque ninguna de las comparaciones de dos grupos sería demasiado difícil de manejar de forma aislada, el hecho de que tengo seis comparaciones es realmente me desconcierta. Mi conjetura es que no voy a ser capaz de manejar todo en un modelo.

enter image description here

Busco recomendaciones sobre qué hacer con estos datos. Modelizar estos efectos utilizando un modelo de Cox ampliado es probablemente imposible dado el número de comparaciones y las diferentes formas de no proporcionalidad. Dado que están interesados en las diferencias de tratamiento, un modelo estratificado global no es una opción porque no me permitirá estimar estas diferencias.

Así que, siéntase libre de destrozarme, pero estaba pensando en estimar inicialmente un modelo estratificado para obtener los efectos de las otras covariables (probando el supuesto de no interacción, por supuesto), y luego volver a estimar modelos de Cox multivariables separados para cada comparación de dos grupos (por lo tanto, 6 modelos en total). De esta forma, puedo abordar la forma de no proporcionalidad para cada comparación de dos grupos y obtener una estimación de HR menos errónea. Entiendo que los errores estándar estarían sesgados, pero dado el tamaño de la muestra, es probable que todo sea "estadísticamente" significativo.

0 votos

¿Ha intentado ajustar las variables clínicas/demográficas con puntuaciones de propensión en lugar de la regresión de Cox? Con esta abundancia de datos, el ajuste por puntuaciones de propensión podría ser factible.

0 votos

@EdM No para estos datos. Mi incertidumbre con respecto a cómo hacer coincidir exactamente la puntuación de propensión con datos de categorías múltiples (es decir, >2 categorías) me ha impedido probar este método. Sin embargo, en mi experiencia, los resultados del análisis multivariable serán muy similares a los resultados del análisis de propensity score matched (dado que el propósito de ambos es abordar el sesgo de selección). Por lo tanto, sospecharía que acabaría con el mismo problema de no proporcionalidad.

0 votos

Esto se refiere a la confusión, no a la heterogeneidad de los resultados.

6voto

Cliff AB Puntos 3213

Usted ciertamente no tiene marginal riesgos proporcionales. Eso no significa que no tenga condicional ¡riesgos proporcionales!

Para explicarlo con más detalle, consideremos la siguiente situación: supongamos que tenemos el grupo 1, que es muy homogéneo y tiene un peligro constante = 1. Ahora, en el grupo 2, tenemos una población heterogénea; el 50% tiene un riesgo menor que el grupo 1 (hazard = 0,5) y el resto tiene un riesgo mayor que el grupo 1 (hazard = 3). Evidentemente, si supiéramos si todos los del grupo 2 son sujetos de mayor o menor riesgo, todos tendrían riesgos proporcionales. Se trata de los riesgos condicionales.

Pero supongamos que no sabemos (o ignoramos) si alguien del grupo 2 tiene un riesgo alto o bajo. Entonces la distribución marginal para ellos es la de un modelo de mezcla: 50% de posibilidades de que tengan un riesgo = 0,5, 50% de que tengan un riesgo = 3. A continuación, proporciono algo de código R junto con un gráfico de los dos riesgos.

# Function for computing the hazards from 
# a 50/50 heterogenious population
mix_hazard <- function(x, hzd1 = 0.5, hzd2 = 3){
  x_dens <- 0.5 * dexp(x, hzd1) + 0.5 * dexp(x, hzd2)
  x_s    <- 1 - ( 0.5 * pexp(x, hzd1) + 0.5 * pexp(x, hzd2)) 
  hzd    <- x_dens/x_s
  return(hzd)
}

x <- 0:100/20
plot(x, mix_hazard(x), 
     type = 'l',
     col = 'purple', ylim = c(0, 2), 
     xlab = 'Time', 
     ylab = 'Hazard', 
     lwd = 2)
lines(x, rep(1, length(x)), col = 'red', lwd = 2)

legend('topright', 
       legend = c('Homogeneous',
                  'Heterogeneous'), 
       lwd = 2,
       col = c('red', 'purple'))

enter image description here

¡Vemos claramente riesgos marginales no proporcionales! Pero nótese que si supiéramos si los sujetos del grupo 2 son de alto riesgo o de bajo riesgo, nosotros sería tienen riesgos proporcionales.

¿Cómo te afecta esto? Bueno, has mencionado que tienes muchas otras covariables sobre estos sujetos. Es muy posible que cuando ignoramos estas covariables, los riesgos no sean proporcionales, pero después de ajustarlos, se pueden capturar las causas de la heterogeneidad en los diferentes grupos, y solucionar el problema de los riesgos no proporcionales.

1 votos

Gracias por la respuesta. Su observación es acertada, ya que el problema de las covariables omitidas puede manifestarse como riesgos no proporcionales. Olvidé mencionar que, aunque las curvas de supervivencia logarítmicas no estaban ajustadas, comprobé la no proporcionalidad utilizando interacciones con el tiempo, así como los residuos de Schoenfield tras ajustar todas las covariables de interés. He editado mi post para reflejar esto.

4voto

dan90266 Puntos 609

Fantástica pregunta fantásticas respuestas. Añadiré que deberías considerar un modelo con supuestos muy diferentes, como el modelo de supervivencia lognormal. Utilice la función inversa normal para el eje y en lugar de log-log. Sigue siendo necesario ajustar las covariables. Por lo tanto, también hay que tener en cuenta la normalidad de los residuos estratificados por tratamiento. Esto está cubierto en un estudio de caso cerca del final de mis notas del curso en https://hbiostat.org/rmsc

0 votos

Gracias por tu perspicacia; no había considerado los modelos paramétricos. Hago la mayor parte de mi modelización en SAS, por lo que sus notas del curso que muestran cómo estimar el modelo log-normal utilizando el paquete rms fueron increíblemente útiles. Aunque el ajuste del modelo log-normal no es ideal, creo que es adecuado y suficiente para informar ( Residuos ). Inevitablemente, habrá que recordar al IP que un solo estudio no es en absoluto definitivo. Gracias de nuevo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X