Tengo un base de datos de HCE retrospectiva de un hospital y me gustaría construir un modelo ML para predecir si un paciente morirá en 28 días o no (desde el alta/algún punto temporal T)
¿Puedo consultar con usted los pasos siguientes?
a) Supongamos que tengo una muestra de 5000 pacientes
b) Elijo como datos de entrenamiento 3500 pacientes
c) Para estos 3500 pacientes, extraigo las variables requeridas y sus valores hasta el tiempo "T".
d) Y ahora para los datos de entrenamiento, necesitamos etiquetas, Así que calculo usando un script de python si esta persona ha muerto en los 28 días siguientes a la hora "t" (porque tengo todos sus datos. Puedo encontrar la diferencia entre su fecha de alta y la fecha de defunción)
e) En caso afirmativo, lo etiquetaré como "1"; en caso contrario, como "0".
f) Construyo un modelo de aprendizaje supervisado mediante regresión logística
Ahora viene la parte difícil (al menos para mí)
g) Me gustaría aplicar este modelo al conjunto no visto de 1500 pacientes
h) Extraigo las mismas variables que los datos de entrenamiento
i) Ahora aplico el modelo a estos datos no vistos de 1500 pacientes
k) Pero el problema es que esto sólo dará si el paciente morirá o no. ¿Cómo puedo saber si morirá o no en los 28 días?
¿Cómo puedo incorporar aquí este componente temporal?
¿Puede alguien ayudarme con esto proporcionando pasos fáciles de entender y qué algoritmo utilizar, por favor?