3 votos

¿Cómo calcular la mortalidad a 28 días?

Tengo un base de datos de HCE retrospectiva de un hospital y me gustaría construir un modelo ML para predecir si un paciente morirá en 28 días o no (desde el alta/algún punto temporal T)

¿Puedo consultar con usted los pasos siguientes?

a) Supongamos que tengo una muestra de 5000 pacientes

b) Elijo como datos de entrenamiento 3500 pacientes

c) Para estos 3500 pacientes, extraigo las variables requeridas y sus valores hasta el tiempo "T".

d) Y ahora para los datos de entrenamiento, necesitamos etiquetas, Así que calculo usando un script de python si esta persona ha muerto en los 28 días siguientes a la hora "t" (porque tengo todos sus datos. Puedo encontrar la diferencia entre su fecha de alta y la fecha de defunción)

e) En caso afirmativo, lo etiquetaré como "1"; en caso contrario, como "0".

f) Construyo un modelo de aprendizaje supervisado mediante regresión logística

Ahora viene la parte difícil (al menos para mí)

g) Me gustaría aplicar este modelo al conjunto no visto de 1500 pacientes

h) Extraigo las mismas variables que los datos de entrenamiento

i) Ahora aplico el modelo a estos datos no vistos de 1500 pacientes

k) Pero el problema es que esto sólo dará si el paciente morirá o no. ¿Cómo puedo saber si morirá o no en los 28 días?

¿Cómo puedo incorporar aquí este componente temporal?

¿Puede alguien ayudarme con esto proporcionando pasos fáciles de entender y qué algoritmo utilizar, por favor?

3voto

EdM Puntos 5716

Como dice @DWin en un comentario, se trata de una aplicación estándar del análisis de supervivencia. Eso tiene la ventaja de evaluar no sólo la ocurrencia de eventos, sino también los tiempos a los eventos.

Si sigue adelante con la división tren/prueba (incluso 5000 pacientes) podría no ser suficiente para que eso sea fiable; la evaluación del modelo mediante remuestreo podría ser mejor) usted dice que tiene datos de tiempo transcurrido hasta el evento. En ese caso, incluso con un modelo de regresión logística todo o nada, puede evaluar la mortalidad a 28 días ignorando las muertes que se produzcan después de 28 días desde la hora de inicio.

En rms paquete en R, también señalado por @DWin, proporciona una infraestructura bien desarrollada para combinar el análisis de supervivencia con la validación y calibración de modelos basados en remuestreo, y proporcionar predicciones para combinaciones específicas de valores de covariables. No hay ninguna razón por la que los enfoques utilizados allí no puedan extenderse a análisis con un sabor más de "aprendizaje automático" o "ciencia de datos". Sólo hay que tener en cuenta que los modelos proporcionados por estos últimos enfoques pueden ser más difíciles de interpretar para los simples seres humanos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X