15 votos

Las curvas de Kaplan-Meier parecen decir lo contrario que la regresión de Cox

En R, estoy haciendo análisis de datos de supervivencia de pacientes con cáncer.

He estado leyendo cosas muy útiles sobre análisis de supervivencia en CrossValidated y otros sitios y creo que he entendido cómo interpretar los resultados de la regresión de Cox. Sin embargo, un resultado todavía me molesta...

Estoy comparando la supervivencia en función del sexo. Las curvas de Kaplan-Meier favorecen claramente a los pacientes de sexo femenino (he comprobado varias veces que la leyenda que he añadido es correcta, el paciente con la máxima supervivencia, 4856 días, es efectivamente una mujer): enter image description here

Y vuelve la regresión de Cox:

Call:
coxph(formula = survival ~ gender, data = Clinical)

  n= 348, number of events= 154 

              coef exp(coef) se(coef)      z Pr(>|z|)  
gendermale -0.3707    0.6903   0.1758 -2.109    0.035 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

           exp(coef) exp(-coef) lower .95 upper .95
gendermale    0.6903      1.449    0.4891    0.9742

Concordance= 0.555  (se = 0.019 )
Rsquare= 0.012   (max possible= 0.989 )
Likelihood ratio test= 4.23  on 1 df,   p=0.03982
Wald test            = 4.45  on 1 df,   p=0.03499
Score (logrank) test = 4.5  on 1 df,   p=0.03396

Así pues, la razón de riesgos (HR) para los pacientes varones ( gendermale ) es 0,6903. La forma en que yo lo interpretaría (sin mirar la curva de Kaplan-Meier) es: como el HR es <1, ser un paciente de sexo masculino es protector. O más exactamente, una paciente de sexo femenino tiene 1/0,6903 = exp(-coef) = 1,449 más probabilidades de morir en un momento determinado que un varón.

Pero eso no parece ser lo que dicen las curvas de Kaplan-Meier. ¿Qué hay de malo en mi interpretación?

3 votos

A partir de su curva K-M, parece que el supuesto PH de la regresión de Cox no se cumple.

0 votos

Ya veo. No lo había mirado antes. Gráficamente, significa que mis curvas de Kaplan-Meier deberían ser paralelas, por lo que puedo utilizar Cox con seguridad, ¿verdad? Eso parece más o menos bien antes de ~ 2200 días. ¿Está bien echar un vistazo a los resultados de Cox para todos los datos un poco antes de la intersección?

4 votos

NB Son las curvas $\log -\log \hat S_i(t)$ donde $\hat S_i(t)$ es la función de supervivencia estimada para el grupo $i$ que deberían ser paralelas bajo riesgos proporcionales. Como señala @IWS, los intervalos de confianza serán muy amplios para el grupo femenino después de unos 3000 días (¿sólo hay dos que superen ese punto?), por lo que la hipótesis PH mayo no estar tan mal.

16voto

IWS Puntos 126

Este es un muy buen ejemplo de riesgos no proporcionales O del efecto del "agotamiento" en el análisis de supervivencia. Intentaré explicarlo.

En primer lugar, observe bien su curva de Kaplan-Meier (KM): puede ver que en la primera parte (hasta alrededor de 3000 días) la proporción de varones aún vivos en la población de riesgo en el momento t es mayor que la proporción de mujeres (es decir, la línea azul es "más alta" que la roja). Esto significa que, efectivamente, el sexo masculino es "protector" para el suceso (muerte) estudiado. En consecuencia, la hazard ratio debería estar entre 0 y 1 (y el coeficiente debería ser negativo).

Sin embargo, después del día 3000, ¡la línea roja es más alta! Esto sugeriría lo contrario. Basándonos únicamente en este gráfico de KM, esto sugeriría además un riesgo no proporcional. En este caso, "no proporcional" significa que el efecto de la variable independiente (sexo) no es constante a lo largo del tiempo. En otras palabras, el riesgo relación es viable que cambie con el paso del tiempo. Como ya se ha explicado, este parece ser el caso. Lo normal modelo de Cox de riesgos proporcionales no tiene en cuenta estos efectos. De hecho, uno de los principales supuestos es que los riesgos son proporcionales. Ahora bien, también se pueden modelizar riesgos no proporcionales, pero eso queda fuera del alcance de esta respuesta.

Hay que hacer un comentario adicional: esta diferencia podría deberse a que los riesgos reales no son proporcionales. o el hecho de que hay mucha varianza en las estimaciones de cola de las curvas KM. Nótese que en este momento el grupo total de 348 pacientes habrá disminuido a una población muy pequeña todavía en riesgo. Como se puede ver, ambos grupos de género tienen pacientes que experimentan el evento y pacientes que son censurados (las líneas verticales). A medida que la población en riesgo disminuye, las estimaciones de supervivencia serán menos seguras. Si se hubieran trazado intervalos de confianza del 95% alrededor de las líneas KM, se vería que la anchura del intervalo de confianza aumenta. Esto también es importante para la estimación de riesgos. En pocas palabras, como la población en riesgo y la cantidad de eventos en el periodo final de su estudio es baja, este periodo contribuirá menos a las estimaciones en su modelo cox inicial.

Por último, esto explicaría por qué el peligro (supuesto constante a lo largo del tiempo) se ajusta más a la primera parte de su KM, en lugar del punto final.

EDIT: véase el acertado comentario de @Scrotchi a la pregunta original: Como se ha dicho, el efecto de los números bajos en el período final del estudio es que las estimaciones de los riesgos en esos puntos en el tiempo son inciertas. En consecuencia, también es menos seguro que la aparente violación de la hipótesis de riesgos proporcionales no se deba al azar. Como afirma @ scrotchi's, puede que la hipótesis de PH no sea tan mala.

1 votos

(-1) Las colas se cruzan en los extremos, donde tenemos muy pocos datos. De hecho, las pruebas de "riesgos no proporcionales" se basan en sólo dos observaciones (es decir, cuando t >2800, sólo quedaban dos sujetos en la cohorte femenina y, además, el último suceso anterior en el grupo se produjo en torno a t = 2100)

3 votos

@CliffAB Gracias por los comentarios Cliff AB. Aunque estoy un poco confuso, ya que tu comentario es exactamente lo que intentaba decir. Lo admito: podría haber sido un poco más corto. El -1 es un poco duro :'(

3 votos

Quizás fue un poco mezquino por mi parte. Lo único que quiero decir es que cuando miro esto, no veo necesariamente un buen ejemplo de riesgos no proporcionales, sino más bien pocos datos sobre las colas. Veo que la primera frase ha sido revisada (creo, a no ser que me lo haya perdido la primera vez), así que ahora el (-1) es definitivamente innecesario.

6voto

alexs77 Puntos 36

Usted está confundido en cuanto a la naturaleza de su salida. Estos datos dicen: Si eres hombre tienes más probabilidades de vivir más que una mujer; Las mujeres tienen PEOR supervivencia que los hombres. Esto se refleja en el resultado de la regresión, ya que el efecto de ser MASCULINO es tener un log hazard ratio negativo, es decir, los hombres tienen menos riesgo que las mujeres. En la mayoría de los momentos del evento (cuando las curvas se "escalonan"), la curva de supervivencia de los hombres es mayor que la de las mujeres, los resultados del modelo de Cox y el gráfico concuerdan muy bien. Las curvas KM lo confirman, al igual que los resultados del modelo de regresión. El "cruce" es intrascendente.

Las curvas KM se comportan mal en las colas, especialmente cuando se acercan al 0% y/o se estrechan de forma plana. El eje Y es la proporción de supervivientes. Con relativamente pocos supervivientes durante el estudio y pocos fallecidos en ese momento, la fiabilidad de las estimaciones es intuitiva y gráficamente terrible. Observo, por ejemplo, que en su cohorte hay visiblemente menos mujeres que hombres y que después de 2.800 días, quedan menos de 10 hembras en la cohorte, como demuestran los escalones en la curva de supervivencia y la ausencia de eventos censurados.

Como nota interesante, dado que los análisis de supervivencia que utilizan curvas KM, pruebas de rangos logarítmicos y modelos de Cox utilizan clasificado tiempo de supervivencia, la duración real de la supervivencia es algo irrelevante. La hembra más longeva podría, de hecho, haber sobrevivido otros 100 años y no tendría ningún impacto en los análisis. Esto se debe a que la función de riesgo de referencia (sin haber observado ningún evento durante los últimos 13 años) asumiría que no hay riesgo de muerte durante esos 87 años siguientes, ya que nadie murió entonces.

Si desea un HR robusto para obtener los IC del 95% y los p-valores correctos para ello, especifique robust=TRUE en el Cox-PH para obtener los errores estándar del sándwich. En ese caso, la HR es una HR promediada en el tiempo que compara a los hombres con las mujeres en todos los momentos de fallo.

0 votos

Para aclarar: en la parcela KM, los machos tienen mejor supervivencia hasta unos 2700 días. Después, las mujeres tienen una mayor supervivencia. Pero esa cola no es precisa porque hay muy pocos datos. Se puede ver que dos pasos en la curva de KM llevan la supervivencia de las mujeres del 35% al 0%, así que lo más probable es que se trate de dos personas. Entonces supongo que se vería una clara separación hasta los 2000 días, y después una superposición.

3 votos

@HarveyMotulsky cierto pero las colas de los KM son muy poco fiables . Si OP dibujara los ICs se solaparían fuertemente, por lo que inferencialmente diríamos que la supervivencia era probablemente equívoca después de 2700 días.

0 votos

Exactamente mi punto. Los datos muestran claramente que los machos (en esta situación, sea cual sea) tienen una mejor supervivencia al menos durante los primeros 2000+ días.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X