8 votos

Predicciones horarias mediante series temporales

Me gustaría construir un modelo basado en series temporales. Tengo un conjunto de datos con registros cada 30 minutos durante tres meses.

¿Cuál es la diferencia entre modelar estos datos con los siguientes tipos de modelos?

  • Extraer la hora/semana/día/mes y utilizarlos como características en los algoritmos de aprendizaje automático
  • Uso de modelos ARMA

Mis datos contienen información meteorológica. Uno de los escenarios en los que estoy trabajando es la predicción del "uso de las bicicletas", que está relacionada con información como el tiempo/temperatura/viento/hora (día/hora, creo que el mes no tiene sentido) ... En este tipo de escenarios, ¿debería utilizar modelos ARMA de series temporales o simplemente extraer hora/semana/día/mes y utilizarlos como características para aplicar algoritmos como tree/random-forest.

¿Alguien puede explicar la diferencia, o señalar un papel/libro para comprobarlo?

Nota: Soy autodidacta, no he asistido a ninguna clase de ciencia de datos. Disculpas si esto es obvio.

11voto

icelava Puntos 548

Bueno, la diferencia es... que son métodos diferentes. ("¿Alguien puede explicar la diferencia entre manzanas y naranjas?")

  • Los modelos ARIMA se explican en cualquier libro de introducción a las series temporales. (Nunca me cansaré de recomendar este libro de texto gratuito de previsión en línea de código abierto .) Si quiere incluir información meteorológica, necesitará modelos ARIMA con información eXploratoria o eXterna, o modelos ARIMAX. Estos también son estándar.

  • Los Árboles/CARTs/Bosques Aleatorios se explican en cualquier libro de texto de Ciencia de Datos, o incluso en las páginas de Wikipedia. Por supuesto, éstos modelan las variables explicativas "tal cual". Su idea de utilizar días, horas y meses como características tiene sentido en este contexto. Sin embargo, la simple introducción de variables ficticias independientes para "9-10am", "10-11am", etc., en su modelo puede o no tener en cuenta el hecho de que sus observaciones en las franjas horarias de 9-10am y 10-11am estarán más correlacionadas que las de las franjas de 9-10am y 1-2pm.

Un par de pensamientos al azar:

  • ARIMA(X) tendrá dificultades para lidiar con el múltiples Estacionalidades implicadas (año tras año, dentro de la semana con gente que se desplaza al trabajo de lunes a viernes pero no los sábados y domingos, dentro del día con más gente en bicicleta durante el día). En principio, podría modelar estas estacionalidades utilizando variables ficticias en sus modelos ML. Alternativamente, hay un par de enfoques para las estacionalidades múltiples en el contexto de los modelos de Suavización Exponencial/Espacio de Estados.

  • Por supuesto, el tiempo está muy correlacionado con la época del año y la hora del día: hace más calor en verano y durante el día que en invierno y durante la noche. Si ya modeliza la estacionalidad como en el caso anterior, es posible que añadir información meteorológica no mejore mucho las previsiones más allá de lo que ya hace la estacionalidad .

  • Si quieres pronosticar algo utilizando el tiempo, recuerda que también necesitarás previsiones meteorológicas. No evalúe sus previsiones fuera de la muestra basándose en cómo funcionan con actual tiempo - no sabrás el de mañana actual meteorológica cuando se hacen previsiones de "producción". La incertidumbre en las previsiones meteorológicas añade una fuente adicional de incertidumbre en sus previsiones de ciclismo. En particular, las previsiones meteorológicas no son muy fiables para más de 15 días, por lo que no serán muy útiles para prever los paseos en bicicleta a tanta distancia. (Por cierto, obtener datos meteorológicos históricos es mucho más fácil y barato que obtener datos meteorológicos históricos previsiones .)

  • Tal vez quiera consultar la bibliografía sobre precios de la electricidad o previsión de la carga: ese caso de uso aborda muchos de sus retos (datos de alta frecuencia, múltiples estacionalidades, influencia meteorológica). No he leído esta revisión todavía, pero puede ser útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X