3 votos

Diferentes tiempos de "fin de estudio" para diferentes cohortes - Modelo PH de Cox en el análisis de supervivencia

Tengo un conjunto de datos con 4 cohortes de aproximadamente el mismo tamaño (~700 personas cada una). Estoy intentando aplicar un modelo PH de Cox utilizando el tiempo necesario para aprobar un examen muy difícil como mi variable "tiempo". Las cohortes difieren porque son clases diferentes (clase de 2009, clase de 2010, 2011 y 2012). Estos son claramente también el momento en que entran en el estudio.

Todos los tiempos están censurados desde 2013. ¿Hay alguna manera de tener en cuenta el hecho de que el "tiempo de estudio" es diferente para cada cohorte? Estaba pensando en estratificar por cohortes, pero los coeficientes serían claramente negativos y disminuirían cada vez más rápido. Sin embargo, esto se debería no a una disminución real del peligro, sino al hecho de que las últimas cohortes son objeto de seguimiento durante menos tiempo.

Para aclarar mi último punto, incluiré un código que acabo de ejecutar en R.

¡Código R! http://i58.tinypic.com/25txbfa.jpg

cox2 <- coxph(ml ~ as.factor(Cohort), data = data)
summary(cox2)
# Call:
# coxph(formula = m1 ~ as.factor(Cohort), data = data)
#   n= 1865, number of events= 621
#    (63237 observations deleted due to missingness)
# 
#                           coef exp(coef) se(coef)     z Pr(>lzl)
# as.factor(Cohort)2010 -0.23715  0.78887  0.09601 -2.470  0.01351 *
# as.factor(Cohort)2011 -0.35811  0.69899  0.12345 -2.901  0.00372 **
# as.factor(Cohort)2012 -0.76813  0.46388  0.17111 -4.489 7.15e-06 ***
# ---
# Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
# 
#                         exp(coef) exp(-coef) lower .95 upper .95
# as.factor(Cohort)2010      0.7889      1.268    0.6536    0.9522
# as.factor(Cohort)2011      0.6990      1.431    0.5488    0.8903
# as.factor(Cohort)2012      0.4639      2.156    0.3317    0.6487
# 
# Concordance= 0.568 (se = 0.012 )
# Rsquare= 0.013 (max possible= 0.99 )
# Likelihood ratio test= 24.5 on 3 df, p=1.968e-05
# Wald test            = 23.31 on 3 df, p=3.482e-05
# Score (logrank) test = 23.85 on 3 df, p=2.683e-05

Como esperaba, los coeficientes son todos negativos y disminuyen rápidamente. Estoy seguro de que esto se debe no a una disminución real del peligro, sino al hecho de que los tiempos de seguimiento de cada cohorte disminuyen a medida que aumenta la covariable de clase.

2voto

swmo Puntos 1132

Básicamente, estamos suponiendo un modelo de Cox con cuatro grupos. No estoy seguro de a qué se refiere con estratificar por clase, ya que esto no le ayudaría a comparar las cuatro clases.

La cuestión es si podemos o no utilizar un modelo estándar de Cox cuando estamos aplicando diferentes mecanismos de censura a diferentes grupos de observaciones. Y de hecho, podemos.

Un supuesto del modelo es la censura independiente de la derecha. Lo que realmente se quiere decir con esto, es la independencia de los tiempos de censura y los tiempos de evento condicionales a las covariables del modelo. En su ejemplo, tenemos que determinar si es razonable asumir la censura independiente a la derecha. Cuando condicionamos a las covariables (siendo la clase una de ellas), los tiempos de censura son constantes, por tanto independientes de los tiempos de los sucesos. Por lo tanto, los tiempos de censura y los tiempos de los sucesos son en realidad independientes condicionados a las covariables. Cuando se conoce el valor de la covariable de clase, la dependencia entre el tiempo de censura y el tiempo de suceso desaparece, por así decirlo. Por tanto, en su ejemplo, el supuesto de censura independiente a la derecha sigue siendo razonable.

Por supuesto, esto sólo es cierto cuando la covariable de clase que influye en la censura está realmente incluida en el modelo. Imagínese que no incluye la clase y, además, supone que la clase y el momento del suceso no son independientes. Entonces (heurísticamente) la información sobre el tiempo de censura le daría información sobre la clase, que a su vez le daría información sobre el tiempo del suceso. Por lo tanto, el momento del suceso y el momento de la censura ya no son independientes y un supuesto del modelo acaba de romperse.

Una referencia al respecto sería PK Andersen et al, Modelos estadísticos basados en procesos de recuento , 1997, pp. 139-146.

Un pequeño experimento de simulación podría arrojar algo de luz sobre la situación. La siguiente R -code genera datos de cuatro grupos, todos con la misma peligrosidad.

data <- data.frame(grp = c(rep(1, 1000), rep(2, 1000), rep(3, 1000), rep(4, 1000)))

data$x <- rweibull(n = 4000, shape = 1, scale = 1)

data$event <- data$x < (data$grp == 1)*1 + (data$grp == 2)*.7 + 
  (data$grp == 3)*.5 + (data$grp == 4)*.3
data$x <- pmin(data$x, (data$grp == 1)*1 + (data$grp == 2)*.7 + 
                 (data$grp == 3)*.5 + (data$grp == 4)*.3)

coxph(Surv(time = x, event = event) ~ as.factor(grp), data = data)

Si ejecutas el código, verás que las estimaciones obtenidas son buenas, obtenemos coeficientes cercanos a uno.

Sin los datos es difícil decir por qué se ve este artefacto de coeficientes decrecientes para clases crecientes. Me viene a la cabeza:

Lo que ves puede deberse a una especie de sesgo de selección. Cada año, algunas de las 700 personas no aprobarán nunca el examen (supongo). Si imaginamos que un estudiante suspende el examen en un primer año, podría ser eliminado de la cohorte en su totalidad. Por ejemplo, porque el alumno abandona el programa y, por tanto, ya no está en proceso de aprobar el examen. Esto constituiría claramente un sesgo de selección, ya que los estudiantes que aprueban el examen lentamente (o que nunca lo aprueban) son eliminados de las primeras cohortes, mientras que en las cohortes posteriores tienen menos tiempo para abandonar el programa. Eso daría las estimaciones que usted comunica, aunque no haya diferencias reales entre las clases. Véase el siguiente experimento de simulación. Es idéntico al anterior, pero sólo estoy eliminando a los alumnos lentos, y más en los primeros cursos (esto corresponde a los que abandonan).

data <- data.frame(grp = c(rep(1, 1000), rep(2, 1000), rep(3, 1000), rep(4, 1000)))

data$x <- rweibull(n = 4000, shape = 1, scale = 1)

data <- subset(data, x < (data$grp == 1)*1 + (data$grp == 2)*1.3 + 
                 (data$grp == 3)*1.5 + (data$grp == 4)*1.7)

data$event <- data$x < (data$grp == 1)*1 + (data$grp == 2)*.7 + 
  (data$grp == 3)*.5 + (data$grp == 4)*.3
data$x <- pmin(data$x, (data$grp == 1)*1 + (data$grp == 2)*.7 + 
                 (data$grp == 3)*.5 + (data$grp == 4)*.3)

coxph(Surv(time = x, event = event) ~ as.factor(grp), data = data)

Ni que decir tiene que esto es sólo una suposición de lo que podría estar ocurriendo con tus datos. Suponiendo que los coeficientes negativos sean un artefacto de algún tipo, no está causado por el mecanismo de censura.

0voto

Sigrit Puntos 6

En el análisis de supervivencia, el "tiempo de estudio" no es muy relevante. Lo que es relevante es cuánto tiempo participante estaba en el estudio. Como alude @rnso y proporciona un enlace, en los estudios médicos es muy poco frecuente que todos los participantes comiencen al mismo tiempo. La inscripción es continua, lo que significa que los pacientes se inscriben durante un cierto periodo de tiempo, digamos 6 meses. Después se les hace un seguimiento durante un periodo de tiempo, por ejemplo 2 años. Esto significa que los pacientes inscritos el día 1 pueden estar en el estudio hasta 2,5 años, mientras que los inscritos el día 180 pueden estar en el estudio hasta 2 años. Si alguien sigue en el estudio al final del tiempo, se le censura.

Trasladándolo a su situación, lo que se introduce en el análisis de supervivencia es el momento en que el estudiante entró en el estudio hasta que 1) aprueba el examen [acontecimiento ocurrido donde $time = ExamDate - EntranceTime$ ], 2) abandonan [censurado en $time = ExitTime - EntranceTime$ ], o 3) ocurre 2013 y todos los que siguen en el estudio lo abandonan [censurado en $time = 2013 - EntranceTime$ ]. Por lo tanto, los alumnos de 2009 son los que más información aportan, ya que son los que llevan más tiempo en el estudio, pero los de 2013 también pueden ser útiles. En el análisis de supervivencia, esos estudiantes de 2013 completarán el examen antes de que transcurra un año o serán censurados después de 1 año, ya que el estudio finaliza.

Para responder directamente a su pregunta, el tiempo de estudio que es diferente para cada estudiante se tiene en cuenta en el tiempo que se calcula para cada estudiante a medida que realiza el estudio. Los estudiantes de 2013 solo aportan un año de información antes de ser censurados, lo que se explica porque ninguno de ellos tiene un valor temporal superior a un año.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X