Sé que esto es principalmente una de las estadísticas del sitio, así que si estoy off-topic, por favor redirigir mí.
Tengo un sistema con las bombas que a veces se rompen y necesitan ser reemplazados. Me gustaría ser capaz de predecir las fallas, y por lo tanto dar alerta temprana a la gente a la colocación de las bombas. Tengo datos históricos de la bomba de proceso, tales como el caudal, la presión, el líquido de altura, etc.
Tengo sólo una pequeña cantidad de experiencia en el uso de técnicas de aprendizaje de máquina para clasificar datos - básicamente he seguido y hecho los ejercicios de Andrew Ng, de la máquina de aprendizaje del curso en coursera, así como Andrew Conway, las Estadísticas de Uno, y nunca he usado el aprendizaje de máquina para clasificar las series de tiempo. Estoy pensando en cómo puedo transformar mi problema para que yo pueda usar mi conocimiento existente sobre ella. Con mis limitados conocimientos, no voy a obtener un óptimo de predicción, pero espero aprender de esto, y para este problema, cualquier pequeña mejora en la predicción es útil, frente a la espera de los fallos que se producen.
Mi propuesta es convertir a la serie de tiempo en un problema de clasificación. La entrada sería un resumen de una serie de tiempo de la ventana, con el valor de la media, desviación estándar, valores máximos etc. para cada tipo de datos en la ventana. Para la salida, no estoy seguro de lo que podría funcionar mejor. Un enfoque es que la salida sería una clasificación binaria de si la bomba no dentro de un cierto período de tiempo desde el final de la ventana o no. La otra es que el resultado sería el tiempo que queda antes de que la bomba falla, así que no es una clasificación, sino una regresión (en la máquina de aprendizaje de sentido) en su lugar.
¿Crees que este enfoque es probable que los resultados de la producción? Es una cuestión de "depende del dominio y datos históricos". ¿Hay mejor que transforma (de entrada y de salida) que yo no he considerado, o es culpa de la predicción basada en datos de series de tiempo tan diferente de la más estándar de predicción de fallos, que mi tiempo estaría mejor invertido de la lectura en el aprendizaje de máquina con series de tiempo?