Sé que los modelos estadísticos tradicionales, como la regresión de riesgos proporcionales de Cox y algunos modelos de Kaplan-Meier, pueden utilizarse para predecir los días que transcurrirán hasta que se produzca un suceso, por ejemplo, un fallo. Análisis de supervivencia
Preguntas
- ¿Cómo puede utilizarse la versión de regresión de modelos de aprendizaje automático como GBM, redes neuronales, etc. para predecir los días que faltan para que se produzca un suceso?
- Creo que utilizar los días hasta la aparición como variable objetivo y simplemente ejecutar un modelo de regresión no funcionará. ¿Por qué no funciona y cómo se puede solucionar?
- ¿Podemos convertir el problema del análisis de supervivencia en una clasificación y luego obtener probabilidades de supervivencia? Si es así, ¿cómo crear la variable objetivo binaria?
- ¿Cuáles son los pros y los contras del enfoque de aprendizaje automático frente a la regresión de riesgos proporcionales de Cox y los modelos de Kaplan-Meier, etc.?
Imagine un ejemplo de datos de entrada con el siguiente formato
Nota:
- El sensor envía los datos a intervalos de 10 minutos, pero a veces pueden faltar datos debido a problemas de red, etc., como se indica en la fila con NA.
- var1,var2,var3 son los predictores, variables explicativas.
- failure_flag indica si la máquina ha fallado o no.
- Tenemos los datos de los últimos 6 meses en intervalos de 10 minutos para cada uno de los identificadores de máquina.
EDITAR:
La predicción de salida esperada debe tener el siguiente formato
Nota: Quiero predecir la probabilidad de fallo de cada una de las máquinas para los próximos 30 días a nivel diario.