19 votos

¿Cómo pueden utilizarse los modelos de aprendizaje automático (GBM, NN, etc.) para el análisis de supervivencia?

Sé que los modelos estadísticos tradicionales, como la regresión de riesgos proporcionales de Cox y algunos modelos de Kaplan-Meier, pueden utilizarse para predecir los días que transcurrirán hasta que se produzca un suceso, por ejemplo, un fallo. Análisis de supervivencia

Preguntas

  1. ¿Cómo puede utilizarse la versión de regresión de modelos de aprendizaje automático como GBM, redes neuronales, etc. para predecir los días que faltan para que se produzca un suceso?
  2. Creo que utilizar los días hasta la aparición como variable objetivo y simplemente ejecutar un modelo de regresión no funcionará. ¿Por qué no funciona y cómo se puede solucionar?
  3. ¿Podemos convertir el problema del análisis de supervivencia en una clasificación y luego obtener probabilidades de supervivencia? Si es así, ¿cómo crear la variable objetivo binaria?
  4. ¿Cuáles son los pros y los contras del enfoque de aprendizaje automático frente a la regresión de riesgos proporcionales de Cox y los modelos de Kaplan-Meier, etc.?

Imagine un ejemplo de datos de entrada con el siguiente formato

enter image description here

Nota:

  • El sensor envía los datos a intervalos de 10 minutos, pero a veces pueden faltar datos debido a problemas de red, etc., como se indica en la fila con NA.
  • var1,var2,var3 son los predictores, variables explicativas.
  • failure_flag indica si la máquina ha fallado o no.
  • Tenemos los datos de los últimos 6 meses en intervalos de 10 minutos para cada uno de los identificadores de máquina.

EDITAR:

La predicción de salida esperada debe tener el siguiente formato enter image description here

Nota: Quiero predecir la probabilidad de fallo de cada una de las máquinas para los próximos 30 días a nivel diario.

8voto

martin Puntos 13

En el caso de las redes neuronales, se trata de un enfoque prometedor: WTTE-RNN - Predicción de rotación menos complicada .

La esencia de este método consiste en utilizar una red neuronal recurrente para predecir los parámetros de una distribución de Weibull en cada paso temporal y optimizar la red utilizando una función de pérdida que tenga en cuenta la censura.

El autor también publicó su aplicación en Github .

3voto

Eche un vistazo a estas referencias:

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

También hay que tener en cuenta que los modelos tradicionales basados en riesgos, como los riesgos proporcionales de Cox (CPH), no están diseñados para predecir el tiempo transcurrido hasta el suceso, sino más bien para infiera impacto de las variables (correlación) frente a i) observaciones de sucesos y, por tanto, ii) una curva de supervivencia. ¿Por qué? Fíjese en la MLE de la CPH.

Por lo tanto, si desea predecir más directamente algo como "días hasta que se produzca un suceso", el CPH puede no ser aconsejable; otros modelos pueden servir mejor a su tarea, como se indica en las dos referencias anteriores.

2voto

JanithaR Puntos 141

Como dijo @dsaxton, puedes construir un modelo de tiempo discreto. Se configura para predecir p(fallar en este día dado sobrevivió hasta el día anterior). Sus entradas son día actual (en cualquier representación que desee) por ejemplo, una codificación caliente, entero,.. Spline ... Así como cualquier otra variable independiente que desee.

Así que se crean filas de datos, para cada muestra que sobrevivió hasta el tiempo t-1, ¿murió en el tiempo t (0/1).

Así que ahora la probabilidad de sobrevivir hasta el tiempo T es el producto de p(no morir en el tiempo t dado no morir en t-1) para t=1 a T. Es decir, haces T predicciones a partir de tu modelo y luego las multiplicas.

Yo diría que la razón por la que no es tan buena idea predecir directamente el tiempo hasta el fracaso es la estructura oculta del problema. Por ejemplo, qué se introduce para las máquinas que no han fallado. La estructura subyacente es efectivamente los eventos independientes: fallan en el tiempo t dado que no fallaron hasta t-1. Por ejemplo, si se supone que es constante, la curva de supervivencia se convierte en exponencial (véanse los modelos de riesgo).

Tenga en cuenta que en su caso podría modelar a intervalos de 10 minutos o agregar el problema de clasificación hasta el nivel del día

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X