Fondo
Estoy dando una clase de introducción a la estadística en nuestro departamento de ciencias sociales y de la salud, y me estoy encontrando con algo que siempre había dado por sentado: a saber, la afirmación de que los métodos de análisis de supervivencia (desde Kaplan-Meier a los modelos de Cox) "tienen en cuenta" los datos censurados, y que ésta es una de las principales ventajas de estos métodos sobre otros enfoques.
(Antecedentes relevantes: en mi investigación utilizo, casi siempre torpemente, algunos métodos estadísticos y cuantitativos aplicados, y tengo un buen dominio e intuición para algunos de los conceptos básicos. Así que soy un generalista aceptable, pero no soy estadístico ni siquiera un estudiante de posgrado de estadística, ni mucho menos).
El problema
Sin embargo, mientras preparo algunas diapositivas de PowerPoint para estos estudiantes, me doy cuenta de que, si bien entiendo bastante bien lo que es la censura, no sé muy bien qué es la censura. es en métodos de supervivencia, no tengo ni idea cómo algo así como un modelo Cox "cuenta" para ello. Nunca había pensado en ello, y en su lugar asumí que esto es simplemente lo que sucedió. (Es posible que un profesor nos explicara esto en una etapa anterior de mi educación, pero también es posible que yo soliera tener dificultades en las clases de estadística de las 8 de la mañana).
Censurar, como todos ustedes ya saben, es el estado en el que tenemos algunos información sobre el tiempo de supervivencia individual, pero no conocemos exactamente el tiempo de supervivencia (Kleinbaum & Klein, p. 5; siempre me ha gustado esta explicación tan sencilla). En mi experiencia, a veces cuando los estadísticos intentan vender a alguien métodos de supervivencia, dicen cosas como "¡la regresión logística no tiene en cuenta la censura, pero la regresión de Cox sí!".
En CV hay artículos muy buenos sobre la censura; cette es quizá mi ejemplo favorito. En él, el usuario @Tim da una estupenda explicación de la censura:
Un ejemplo intuitivo de censura es preguntar a los encuestados por su edad, pero registrarla sólo hasta cierto valor y todas las edades por encima de este valor, digamos 60 años, se registran como "60+". De este modo, se dispone de información precisa sobre los valores no censurados y de ninguna información sobre los valores censurados.
Me parece brillante (de hecho, pienso tomarlo prestado durante la conferencia, con los créditos correspondientes, por supuesto). Sin embargo, no se profundiza en la forma en que los análisis de supervivencia abordan esta cuestión, y si se trata de un argumento de venta de los métodos de supervivencia ("nuestros métodos pueden hacer esto y los suyos no") o simplemente de algo que aparece cuando se plantean preguntas de supervivencia ("¿cuánto tiempo vivirá la gente, de media, después de recibir un tratamiento? X ?").
Las preguntas
-
¿Es cierto, estrictamente hablando, que algo como un estimador de Kaplan-Meier o un modelo de riesgos proporcionales de Cox está "contabilizando" la censura?
-
Si es así, ¿cómo lo hace?
-
Si un modelo de supervivencia tiene en cuenta la censura, ¿se trata de una "característica" de los métodos de supervivencia frente a otros, o de un "error", un artefacto inevitable del tipo de preguntas para las que se utilizan los métodos de supervivencia?
Mis conjeturas
Bueno, conjeturas no, más bien intuiciones muy poco claras de las que no me fío demasiado:
-
¿Por qué la censura es un problema? Creo que, si no se tiene en cuenta, la censura es una enorme fuente potencial de sesgo a la hora de hacer estimaciones de supervivencia: si no se sabe lo que ocurrió después de que el Sr. Smith abandonara el estudio (es decir, se perdió el seguimiento, es decir, fue censurado), las estimaciones pueden desviarse en una dirección u otra. Quizá vivió mucho, mucho tiempo, o quizá murió al día siguiente. Si esto le ocurre a muchas personas de la misma manera, sus estimaciones pueden ser muy, muy erróneas.
-
Así que quizá lo que los modelos de supervivencia han encontrado es una forma de mantener en el análisis a todas las personas que contribuyeron al tiempo de supervivencia, independientemente de si conocemos o no su estado de resultado, mientras que otros métodos simplemente descartarían todos los datos de esas personas como perdidos.
¿Estoy muy, muy equivocado aquí?