Llevo algún tiempo tratando de averiguar la forma más adecuada de analizar algunos datos. Mi tarea consiste en explicar (con suerte) qué puede estar impulsando el flujo de visitantes/turistas a dos sitios históricos, y tengo los totales mensuales de los últimos 5-6 años (también divididos por países de origen de los visitantes + tipos de entradas, pero eso podría estar complicando las cosas...).
También he reunido un montón de datos mensuales adicionales (clima, indicadores económicos, etc.), en un intento de explicar las variaciones de los visitantes a lo largo del tiempo. Puede ver aquí para un subconjunto de datos (los datos reales contienen muchas más filas, y varios más predictores que sólo Temperature
y CCI
). También hay una clara estacionalidad en los datos de los visitantes (picos en verano), así como una tendencia general al aumento del número de visitantes.
Si lo he entendido bien, ya nos estamos desviando del territorio "típico" de las series temporales, porque en realidad no estoy intentando predecir los datos a partir de ellos mismos, sino de fuentes externas. Por lo tanto, aunque me he encontrado con cosas como la "diferenciación" o la "des-tendencia", no estoy seguro de que tengan sentido aquí... Es más bien la propia tendencia lo que estoy tratando de explicar.
Mis intentos de solucionar esto hasta ahora han consistido en crear nlme::lme()
o mgcv::gamm()
que pueden especificar varios efectos aleatorios y estructuras autorregresivas ajustadas a los residuos, siendo este último mi intento de tener en cuenta el hecho de que se trata de una serie temporal en la que las mediciones mensuales estarán relacionadas entre sí de alguna manera. Pero (al menos de la forma en que he estado especificando los modelos), la estacionalidad de los datos no está siendo bien manejada por lme()
y con gamm()
También tengo algunas dudas de que esté especificando los modelos correctamente, ya que los GAM son bastante nuevos para mí (en realidad, las series temporales son nuevas para mí, en general... lo que hace que esto sea aún más difícil).
La cuestión general es que no estoy seguro de qué enfoque es el más defendible con estos datos, y para este problema (¿cómo explicar lo que impulsa el número de visitantes a lo largo del tiempo a estos dos sitios, sobre la base de los predictores que tengo?)
Se agradece la ayuda - ¡espero no estar completamente equivocado en mi forma de pensar sobre todo esto!
PS. Otra cosa que se me ocurrió fue extraer sólo la tendencia o ajustar estacionalmente los datos para simplificar las cosas (con stl()
o forecast::seasadj()
) y tratar de predecir sólo que pero, de nuevo, no estoy seguro de que sea justificable y/o habitual.