Estoy tratando de entrenar un modelo con datos que se parecen a esto:
Hay razones teóricas para creer que la fila Y puede predecirse utilizando las filas X, con una ventana de unos 2 segundos. Tenga en cuenta que este gráfico es sólo un ejemplo. Hay alrededor de 100 series de tiempo como esa en mi conjunto de datos para el entrenamiento/validación.
Tengo conocimientos básicos en ML, pero nunca he hecho nada con series temporales, así que busco algún consejo. Sé que puedo reordenar los datos para que cada muestra sea un vector largo que contenga window_size * features
y pasarlo por una regresión logística, pero no estoy seguro de que este sea el mejor enfoque por algunas razones:
- El gran vector de características (digamos ~200 valores) podría causar un sobreajuste, ¿no es así?
- He visto ejemplos que utilizan LSTM y CRF para predicciones de series temporales. Así que probablemente hay razones para utilizar algoritmos especializados para las tareas, pero no los conozco bien para entenderlos completamente. ¿Sugieres que invierta mi tiempo en estos o que me quede con el modelo de regresión logística más simple para este tipo de datos?
- El uso de la regresión logística no tiene en cuenta el tiempo. Por ejemplo, intentar generar predicciones para series temporales con diferentes periodos de muestreo será imposible sin un remuestreo. ¿Los modelos construidos específicamente para series temporales lo tienen en cuenta automáticamente?
Además, esto me parece un problema general, que probablemente tenga una solución general. ¡Por lo tanto, las pistas sobre las bibliotecas de python que se construyen para procesar tales series de tiempo directamente (sin que yo tenga que reorganizar los datos primero) será grande!