5 votos

Comparando 2 series temporales en R

Me preguntaba qué tipo de pruebas se utilizarían para comparar estas dos series temporales.

El primer conjunto de datos (en porcentajes) son los resultados de una encuesta semanal que hace una pregunta de SÍ/NO sobre si alguien tiene un trabajo a tiempo completo.

El segundo conjunto de datos son los totales de ventas semanales.

Tengo el mismo número de puntos de datos (300).

¿Alguna sugerencia sobre qué tipos de análisis podría hacer con este conjunto? o ¿cómo analizar las tendencias?

Hasta ahora intenté una función de correlación cruzada en R y encontré una correlación de 0,39 cuando los datos de la encuesta llevan 3 semanas.

También comparé los valores diarios de HoltWinters suavizados exponencialmente con los valores de las ventas diarias y encontré una correlación máxima de 0,45 en el plomo = 12.

Cualquier sugerencia será apreciada.

Gracias

1 votos

¿En qué sentido quiere "compararlos"? ¿Qué pretende conseguir?

0 votos

Intentando encontrar pruebas de si una está relacionada con la otra o si una puede predecir a la otra. Gracias

0 votos

¿Le importa el sentido de la predicción?

5voto

AdamSane Puntos 1825

Hay varios modelos posibles con distintos niveles de complejidad. Entre ellos se encuentran (algunos están muy relacionados):

Regresión de series temporales con variables retardadas

Modelos de regresión retardada. Véase también modelos de retardo distribuido

Regresión con errores autocorrelacionados

Modelización de la función de transferencia/regresión retardada con errores autocorrelacionados

Modelos ARMAX

Modelos vectoriales autorregresivos

Los modelos lineales dinámicos/de estado pueden incorporar componentes autocorrelacionados y de regresión

Debido a que su serie de entrada es 0/1, es posible que desee buscar una regresión rezagada con errores autocorrelacionados, pero tenga cuidado con los efectos estacionales y de calendario (como las vacaciones).

Así que los modelos más sencillos podrían ser algo así como

$\qquad\text{ Sales}_t = \phi_0+\phi_1\,\text{Sales}_{t-1} +\beta_3\,\text{job}_{t-3}+\beta_4\,\text{job}_{t-4}+\epsilon_t$

o quizás algo como

$\qquad\text{ Sales}_t = \alpha +\beta_3\,\text{job}_{t-3}+\beta_{12}\,\text{job}_{t-12}+\text{seasonal}_{t}+\eta_t$

donde $\eta_t$ es, a su vez, un modelo ARMA para el término de ruido (aunque es muy posible que quiera incluir más rezagos que sólo uno), o una variedad de otras posibilidades. El término estacional anterior no tiene un parámetro porque es probable que tenga varios componentes y, por tanto, varios parámetros; considérelo un marcador de posición para un modelo para ese componente de los datos. Ninguno de estos modelos es suficiente, sólo sirven para tener una idea general de cómo podría ser un modelo sencillo].

También puede considerar si la variable binaria del estado del empleo necesita un modelo propio (si quiere pronosticar más allá del lag más pequeño que la involucra, puede ser esencial al menos considerar si hay algún efecto de este tipo allí - vea los modelos de función de transferencia, pero tiene que considerar la naturaleza especial de la variable binaria)

Una vez que tenga un modelo adecuado para las ventas que capte bien las características principales, puede buscar como probar. Deberías tener suficientes datos (parece que de varios años) para mantener algunos datos fuera para la prueba y validación del modelo fuera de la muestra. Yo empezaría por considerar las características de las ventas por sí solas: ¿son estacionarias? ¿Están autocorrelacionadas? ¿Experimenta algún componente estacional/cíclico o de calendario? ¿Hay que tener en cuenta otros factores importantes?

Ya que menciona R, observe que la función tslm en el paquete forecast puede ser útil para incluir componentes estacionales o de tendencia en los modelos de regresión.

Un libro que trata casi todos estos temas es el de Shumway y Stoffer Análisis de series temporales y sus aplicaciones (La 3ª edición está en la página de Stoffer aquí ). Otro texto muy recomendable es Principios y práctica de la previsión Hyndman y Athanasopoulos, aquí que cubre algunas de las cosas que he mencionado (pero no tantas).

0 votos

Gracias Glen, mucha información útil. ¿Importa que la variable de situación laboral no sea binaria, sino un porcentaje de personas que han marcado "sí"?

0 votos

Bueno, eso plantea la posibilidad de que la relación entre el empleo y las ventas no sea lineal, en cuyo caso es posible que tenga que hacer algún modelo adicional, pero aparte de eso, no creo que haya ningún problema importante si es binario o no. (Si también se intenta predecir el empleo, puede haber problemas adicionales).

2voto

AusTravel Puntos 6

Además de la muy buena respuesta de @Glen_b, me gustaría sugerir algunas complementario información y recursos sobre análisis de series temporales (sobre todo en R ), que podrían serle útiles. Los encontrará en mis respuestas relacionadas, como sigue: en análisis general de series temporales y en clasificación y agrupación de series temporales . Espero que esto sea útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X