Estoy trabajando en un proyecto de series temporales en el que preveo la actividad diaria de algo (llamémoslo "Y") basándome en tres años de datos históricos. Sé que Y se ve afectado por efectos de calendario como las vacaciones (por ejemplo, bajará en Navidad). Cuando analice los datos, quiero tener en cuenta los efectos del calendario.
Está claro cómo crear variables ficticias para las vacaciones (por ejemplo, 1 para Navidad y 0 para el resto de días). Sin embargo, no está tan claro cómo crear variables que tengan en cuenta los efectos de adelanto y retraso de los distintos días del calendario. Esto es especialmente importante porque es probable que algunos de mis días de interés (días que no son normalmente festivos pero que son de interés para mi estudio) tengan efectos significativos de adelanto Y/O de retraso. Por ejemplo, la actividad debería empezar a aumentar en el transcurso de 30 días (30 es una simple estimación basada en el examen visual de los datos) hasta llegar a un determinado día natural de interés y, para otro día natural de interés, la actividad debería subir ese día y seguir subiendo durante unas semanas después, para luego volver a bajar lentamente.
En este contexto, tengo dos preguntas. Una, ¿existe un buen enfoque estadístico que pueda utilizar para determinar cuál es el impacto de retraso y liderazgo de ciertos días del calendario (es decir, cuántos días alrededor del día del calendario de interés parecen ser impactados por ese día del calendario)? ¿Algún paquete de código abierto en particular, ya sea en Python o en R?
En segundo lugar, ¿cómo deberían ser las variables que incorporan los efectos de adelanto y retraso? Por ejemplo, una variable con un efecto de adelanto que aumenta y luego disminuye tendría este aspecto: [0, 0, 0, 0, 1, 2, 3, 4 5, 6, 0, 0, 0]?
En mi primer intento con estos datos, utilicé un GBM con variables que codifican los efectos de los días festivos/calendario. Para los días del calendario que tienen impactos sustanciales de adelanto y retraso (impactos identificados a través del examen visual y el conocimiento del dominio), simplemente creé una variable que tiene días hasta ese día del calendario (por ejemplo, [4, 3, 2, 1, 0, 365, 364, 363, etc.]. Este modelo funciona bastante bien, pero creo que puedo mejorarlo mejorando la forma en que mis variables representan los efectos del calendario.
Muchas gracias por las respuestas.