5 votos

Serie de tiempo del pronóstico en R con periodicidad anual

Tengo una serie de tiempo con las observaciones diarias en el transcurso de varios años (interés en el tema "superbowl" a lo largo del tiempo). La estacionalidad en los datos es anual como bien y es muy puntiagudo (casi nada todo el año y gran aumento de la espiga, en enero/febrero). He empezado a utilizar R para esta tarea (forecast paquete) y tienen poca experiencia con las estadísticas.

x <- ts(myts, frequency=365)
fit <- HoltWinters(x)
plot(forecast(fit))

Esto funciona muy bien y capta la estacionalidad de los datos.

Ahora, he leído más acerca de suavizado exponencial (en http://otexts.com/fpp/7/) y entiende que el HoltWinters modelo es un ejemplo de los modelos de espacio de estado implementado en el ets. Por desgracia, yo no podría usar ets hasta ahora, ya que se queja de los datos de alta frecuencia. Definitivamente voy a necesitar un pronóstico diario (en el orden de 30 a 60 pasos).

fit <- ets(x, 'AAA')
Error in ets(x, "AAA") : Frequency too high

¿Por qué HoltWinters lidiar con esto, pero no ets? Hay una buena solución? Tengo el mismo problema estacional de los modelos ARIMA y considera la división de seguridad de los datos de los años y el uso de los últimos años como exógenos de entrada.

En una nota lateral: ¿Cómo se suele tratar con salto días de que el tornillo de seguridad de su período de 365 días? Simplemente borrarlos?

Muchas gracias!

PD: soy consciente de esto: http://robjhyndman.com/researchtips/longseasonality/ Sin embargo, no pude hacerlo funcionar bien en mis datos, sin embargo. Por otro lado, HoltWinters funcionado bastante bien.


Gracias por todos los comentarios y la discusión. He subido los datos en http://timalthoff.de/data/data.zip El gráfico siguiente muestra Super_bowl.dat.

Me tomé la libertad de incluir a más de la serie de tiempo si quieres ver más ejemplos.

En ciertos puntos en el tiempo quiero pronóstico de la serie de tiempo del orden de 60 días. Estos puntos en el tiempo por lo general están en el flanco izquierdo de un gran pico que representa un repentino interés en un tema. Ver ejemplo.png para un ejemplo (las líneas verticales rojas son estos puntos en el tiempo para iniciar un ejemplo de pronóstico). Para obtener más información, compruebe el archivo LÉAME.

enter image description here

5voto

Senseful Puntos 116

Trate de usar el tbats() función en el pronóstico del paquete de R:

x <- ts(myts, frequency=365)
fit <- tbats(x)
plot(forecast(fit))

TBATS es una generalización de ETS modelos diseñados para lidiar con alta frecuencia de datos. Ver http://robjhyndman.com/papers/complex-seasonality/ para el JASA de papel detrás de él.

4voto

Owen Fraser-Green Puntos 642

R puede ser de poca utilidad para usted debido a la complejidad de su problema. Recientemente hemos desarrollado las previsiones para una serie diaria que se ve "similares" pero "diferente" a la suya.

enter image description here .

Es necesario combinar la Intervención de Detección , Causal de las Variables (Vacaciones , Promociones, etc.) ARIMA y estructura. Hemos utilizado AUTOBOX ( un producto que me han ayudado a desarrollar ) para hacer esto. Puedes publicar tus datos en la mesa y voy a publicar algunos resultados. Este es de hecho uno de los más difíciles de la serie que hemos visto ..... y hemos estado buscando durante mucho tiempo ! Podría ser interesante ver cómo otros líderes de pensamiento para analizar estos datos y comparar los resultados.

EDITADO Después de recibir los datos de la OP

Este tipo de datos requiere de la incorporación de Fijo Eventos es decir, Mensual, Diaria, Vacaciones, junto con la forma especial de los días del año, donde significativo de la actividad puede ser detectado en todo el evento. El OP publicado datos y preguntado por las previsiones de 60 periodos precisamente antes de la Super Bowl. Entregó 1827 diario de valores, a partir 1/1/12008. Hay tres orígenes para el pronóstico. Sólo los datos hasta el punto de que el origen fue utilizada para desarrollar el modelo y los parámetros. Los tres orígenes fueron 12/9/2010 (1074 valores utilizados), 12/8/2011 (1438 valores utilizados) y 12/5/2012(1801 valores utilizados). Los tres Reales-Fit-Pronóstico de Gráficos que se presentan aquí.Primero con 1065 valores enter image description here , a Continuación, con 1438 valores enter image description here y, finalmente, el uso de todos los datos (1801 valores) enter image description here

El completo análisis se puede encontrar en

http://www.autobox.com/1074.zip

http://www.autobox.com/1438.zip

http://www.autobox.com/1801.zip

Cada archivo contiene un xls/xlsx archivo que contiene el 60 previsiones y otros archivos muestra todos los análisis. Cada ecuación es diferente debido a que el número de observaciones que se utiliza para identificar el modelo ha cambiado. La siguiente es la ecuación que se utiliza desde el período 12/5/2012 para predecir los 60 días previos al domingo de Super Bowl. La ecuación que se utiliza diariamente indicadores que reflejen la acumulación antes de la Super Bowl el domingo

M_SB es un 0/1 variable que denota el día de la Super Bowl , mientras que M_1DB a través de M_22DB son los días antes del domingo de Super Bowl y M_1DA a través de M_3DA son para los días después de la Super Bowl. Además hay respuestas significativas alrededor de 4 otros días festivos. Enero y Febrero tienen un impacto significativo junto con 6 diario de los indicadores de N10107 a través de N10607). Una importante estructura ARIMA fue encontrado alrededor de la modelo.
Y(T) = -12757.
+[X1(T)][(+ 20512. )] M_SB

   +[X2(T)][(+  8680.2    )]                           M_1DB

   +[X3(T)][(+  1688.0    )]                           M_2DB

   +[X4(T)][(+  2778.1    )]                           M_3DB

   +[X5(T)][(+  1906.4    )]                           M_4DB

   +[X6(T)][(+  1222.0    )]                           M_5DB

   +[X7(T)][(+  829.06    )]                           M_6DB

   +[X8(T)][(+  948.29    )]                           M_7DB

   +[X9(T)][(+  397.93    )]                           M_8DB

   +[X10(T)[(+  509.42    )]                           M_10DF

   +[X11(T)[(+  804.90    )]                           M_11DB

   +[X12(T)[(+  1102.0    )]                           M_12DB

   +[X13(T)[(+  1867.1    )]                           M_13DB

   +[X14(T)[(+  10258.    )]                           M_14DB

   +[X15(T)[(+  754.71    )]                           M_15DB

   +[X16(T)[(+  328.09    )]                           M_17DB

   +[X17(T)[(+  10116.    )]                           M_21DB

   +[X18(T)[(+  1467.6    )]                           M_22DB

   +[X19(T)[(+  1113.0    )]                           M_1DA

   +[X20(T)[(-  673.57    )]                           M_2DA

   +[X21(T)[(+  601.89    )]                           M_3DA

   +[X22(T)[(+  584.44    B**-2+  1669.4    B**-1+  808.45 +  345.02    B** 1)]       M_MARDIGRAS
   +[X23(T)[(-  7812.7    )]                           M_MARTINLKING

   +[X24(T)[(-  541.22    )]                           M_NEWYEARS

   +[X25(T)[(-  529.21    -  389.18    B** 1)]         M_PRESIDENTS

   +[X26(T)[(+  705.02    )]                           MONTH_EFF01

   +[X27(T)[(+  605.10    )]                           MONTH_EFF02

   +[X28(T)[(+  13116.    )]                           FIXED_EFF_N10107

   +[X29(T)[(+  13017.    )]                           FIXED_EFF_N10207

   +[X30(T)[(+  12971.    )]                           FIXED_EFF_N10307

   +[X31(T)[(+  12974.    )]                           FIXED_EFF_N10407

   +[X32(T)[(+  12917.    )]                           FIXED_EFF_N10507

   +[X33(T)[(+  13036.    )]                           FIXED_EFF_N10607

         +     [(1-  .626B** 1)(1-  .249B** 7)]**-1  [A(T)]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X