Como pasatiempo adicional, he estado explorando la previsión de series temporales (en particular, utilizando R).
Para mis datos, tengo el número de visitas por día, para cada día que se remonta a casi 4 años. En estos datos hay algunos patrones distintos:
- De lunes a viernes hay muchas visitas (las más altas son las de lunes y martes), pero las de sábado y domingo son mucho menos.
- Ciertas épocas del año descienden (por ejemplo, muchas menos visitas en torno a los días festivos de EE.UU., los veranos muestran un menor crecimiento)
- Importante crecimiento interanual
Estaría bien poder hacer una previsión para el año que viene con estos datos, y también utilizarlos para tener un crecimiento desestacionalizado mes a mes. Lo principal que me echa para atrás con una vista mensual es:
- Ciertos meses tendrán más lunes/martes que otros (y eso tampoco es constante a lo largo de los años). Por lo tanto, un mes que tenga más días entre semana debe ajustarse en consecuencia.
La exploración de las semanas también parece difícil ya que los sistemas de numeración de las semanas cambian de 52 a 53 dependiendo del año, y parece ts
no maneja eso.
Estoy pensando en sacar una media de los días de la semana del mes, pero la unidad resultante es un poco extraña (Crecimiento de las visitas medias en días de la semana) y eso sería descartar datos que son válidos.
Creo que este tipo de datos sería común en las series temporales, (digamos por ejemplo el uso de la electricidad en un edificio de oficinas podría ser algo así), ¿alguien tiene algún consejo sobre cómo modelarlo, en particular, en R?
Los datos con los que estoy trabajando son bastante sencillos, empiezan así:
[,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467
y continúa así hasta el presente, con una tendencia general de crecimiento, algunos descensos en torno a las semanas de vacaciones en EE.UU., y un crecimiento generalmente más lento durante el verano.
0 votos
Otro aspecto interesante de los datos es que hay eventos repentinos que interrumpen la tendencia general de crecimiento por un período de ~ un par de meses. Sin embargo, en este momento, en el que estoy tratando de establecer adecuadamente la estacionalidad, estoy ignorando ese aspecto.
0 votos
Además, corrígeme si no estoy utilizando correctamente la "estacionalidad". En este momento estoy pensando en un patrón dentro de la unidad de tiempo que digo. Así que "estacionalidad semanal" para mí significa "un patrón que se repite cada semana".
0 votos
Hmm, me suena (-;
0 votos
Ver las respuestas a stats.stackexchange.com/questions/14742/ . Podría ser un punto de partida.
0 votos
¿Quizás en el centro de esto esté la combinación de semana + año? Parece que
ts
(e inclusomsts
) no encaja un periodo de muestreo de una semana con un periodo "natural" de un año (tampoco lo hacen los calendarios realmente, supongo). O, simplemente no entiendo cómo hacer que eso funcione...0 votos
Por favor, publique sus datos y le responderé.
0 votos
@IrishStat: No estoy seguro de poder compartir los datos, poner un pequeño trozo, con una descripción de lo que el resto estaría haciendo. Va a ser muy similar a la siguiente, sólo que tal vez más precisa. quantcast.com/p-c1rF4kxgLUzNc . Estoy más interesado en aprender a trabajar con estas series temporales de tipo que los resultados específicos en torno a este ejemplo particular.
0 votos
Dejé los datos semanales por el problema de las 52/53 semanas (y otros relacionados con el software que no maneja las semanas correctamente), y pasé a los datos mensuales. Esto disminuyó el ruido y también lo hizo más intuitivo (rápido, cuéntame todo sobre abril, luego cuéntame todo sobre la semana 17 del año). Todavía hay que compensar las características que cambian para un mes a lo largo de los años (vacaciones flotantes, número de días de fin de semana, etc.), pero parece más sencillo que intentar que las herramientas funcionen con semanas.
0 votos
@Wayne: Creo que esto parece ser una limitación de lo que está actualmente disponible en R después de hacer un poco más de investigación. Parece que el paquete de previsión depende de ts, que se basa en la frecuencia, que es ignorante a un calendario real. Para tener en cuenta los días de la semana Y la estacionalidad anual, probablemente necesitaría una previsión basada en algo como
xts
0 votos
@Kyle: Es un problema difícil, y no estoy seguro de cómo sería una buena solución para las series temporales semanales. Las semanas cambian más radicalmente que los meses de un año a otro, con fin de semana/día de la semana, vacaciones, vacaciones flotantes, eventos especiales (ventas, promociones, etc), etc.