9 votos

Los modelos ARIMA múltiples se ajustan bien a los datos. ¿Cómo se determina el orden? ¿Enfoque correcto?

Tengo dos series temporales (parámetros de un modelo para hombres y mujeres) y pretendo identificar un modelo ARIMA adecuado para hacer previsiones. Mi serie temporal tiene el siguiente aspecto

enter image description here

El gráfico y el ACF se muestran no estacionarios (los picos del ACF se cortan muy lentamente). Así, utilizo la diferenciación y obtengo:

enter image description here

Este gráfico indica que la serie podría ser ahora estacionaria y la aplicación de la prueba kpss y la prueba adf apoyan esta hipótesis.

Empezando por la serie masculina, hacemos las siguientes observaciones:

  • Las autocorrelaciones empíricas en los rezagos 1,4,5,26 y 27 son significativamente diferentes de cero.
  • El ACF se corta (?), pero me preocupan los picos relativamente grandes en los lag 26 y 27.
  • Sólo las autocorrelaciones parciales empíricas en los rezagos 1 y 2 son significativamente diferentes de cero.

Sólo por estas observaciones, si tuviera que elegir un modelo AR o MA puro para las series temporales diferenciadas, me inclinaría por un modelo AR(2) argumentando que:

  • No tenemos autocorrelaciones parciales significativas para un retardo superior a 2
  • El ACF se corta excepto en la región alrededor del lag 27. (¿Son estos pocos valores atípicos por sí solos un indicador de que un modelo ARMA mixto sería apropiado?)

o un modelo MA(1) argumentando que:

  • El PACF corta claramente
  • Tenemos para rezagos superiores a 1 sólo 4 picos que superan el valor crítico en magnitud. Esto es "sólo" uno más que los 3 picos (95% de 60) que se permitirían estar fuera del área punteada.

No hay características de un modelo ARIMA(1,1,1) y la elección de los órdenes de p y q de un modelo ARIMA sobre la base de ACF y PACF para p+q > 2 se hace difícil.

Utilizando auto.arima() con el criterio AIC (¿Debo utilizar AIC o AICC?) da:

  1. ARIMA(2,1,1) con deriva; AIC=280,2783
  2. ARIMA(0,1,1) con deriva; AIC=280,2784
  3. ARIMA(2,1,0) con deriva; AIC=281,437

Los tres modelos considerados muestran residuos de ruido blanco:

enter image description here

Mis preguntas resumidas son:

  1. ¿Se puede seguir describiendo la ACF de la serie temporal como corte de a pesar de los picos alrededor del lag 26?
  2. ¿Son estos valores atípicos un indicador de que un modelo ARMA mixto podría ser más apropiado?
  3. ¿Qué criterio de información debo elegir? ¿AIC? ¿AICC?
  4. Los residuos de los tres modelos con el AIC más alto muestran un comportamiento de ruido blanco, pero la diferencia en el AIC es muy pequeña. ¿Debo utilizar el que tenga menos parámetros, es decir, un ARIMA(0,1,1)?
  5. ¿Es mi argumentación en general plausible?
  6. ¿Existen otras posibilidades para determinar qué modelo podría ser mejor o debería, por ejemplo, elegir los dos con el AIC más alto y realizar pruebas retrospectivas para comprobar la plausibilidad de las previsiones?

EDITAR: Aquí están mis datos:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990

5voto

Owen Fraser-Green Puntos 642

1)¿Se puede seguir describiendo la ACF de la serie temporal como corte de a pesar de los picos alrededor del lag 26?

26 y 27 me sugieren que los datos son semanales algún tipo de ciclo anual de orden 26 o 52

¿Son estos valores atípicos un indicador de que un modelo ARMA mixto podría ser más apropiado?

Si hay valores atípicos en la serie observada, el modelo ARIMA se convierte en un modelo de función de transferencia con entradas ficticias.

Los valores atípicos en el acf/pacf no suelen ser interpretables. Rathe utilizar el acf/paf de un modelo tentativo sugerido por el acf/pacf dominante abd luego ITERATE a un modelo más complejo.

¿Qué criterio de información debo elegir? ¿AIC? ¿AICC? Los residuos de los tres modelos con el AIC más alto muestran todos un comportamiento de ruido blanco, pero la diferencia en el AIC es muy pequeña. ¿Debo utilizar el que tenga menos parámetros, es decir, un ARIMA(0,1,1)?

Ninguna, ya que se basa en un conjunto de modelos asumidos de prueba.

¿Es mi argumentación en general plausible? Pregunta vaga... respuesta aún más vaga.

¿Existen otras posibilidades para determinar qué modelo podría ser mejor o debería, por ejemplo, elegir los dos con el AIC más alto y realizar pruebas retrospectivas para comprobar la plausibilidad de las previsiones?

Simplemente ITERATE (¡lentamente!) a modelos más/menos complicados que incorporan tanto la estructura autorregresiva como la estructura determinista. Véase http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-mode para un diagrama de flujo lógico

EDITAR DESPUÉS DE RECIBIR LOS DATOS:

Me confundió tu comentario , usaste la palabra lag de 26 y entendí incorrectamente que hablabas del acf pero te referías al punto de tiempo 26. Un conjunto de datos puede ser no estacionario de varias maneras. Si la media se desplaza el remedio para esta no estacionariedad es la desestacionalización . En su caso, la no estacionariedad está causada por dos tendencias separadas y distintas y un aumento significativo de la varianza del error. Ambas conclusiones se apoyan fácilmente en el ojo. enter image description here

Sus datos no son estacionarios, pero el remedio para la no estacionariedad de sus datos en la media no es la diferenciación, sino la eliminación de la tendencia, ya que se han encontrado dos tendencias (1-29 y 30-65) mediante la detección de la intervención. Además, la varianza del error es no estacionaria y aumenta significativamente en el período 28, según la prueba de Tsay para la varianza del error no constante. http://www.unc.edu/~jbhill/tsay.pdf . Después de ajustar las dos tendencias y el cambio de la varianza del error y algunos pulsos, se encontró que un modelo simple AR(1) era adecuado. Este es el gráfico de Actual/Fit/Forecast . La ecuación enter image description here con los resultados de la estimación aquí enter image description here . La prueba de cambio de varianza está aquí enter image description here y el gráfico de los residuos del modelo está aquí enter image description here . Utilicé AUTOBOX, un software que he ayudado a desarrollar para separar automáticamente la señal del ruido. Su conjunto de datos es el "chico del póster" de por qué el modelado ARIMA simple no se utiliza ampliamente porque los métodos simples no funcionan en problemas complejos. Nótese bien que el cambio en la varianza del error no es vinculable al nivel de la serie de observaciones, por lo que las transformaciones de potencia, como los registros, no son relevantes, aunque los artículos publicados presentan modelos que utilizan esa estructura. Véase Transformación logarítmica o de raíz cuadrada para ARIMA para un debate sobre cuándo tomar transformaciones de poder.

enter image description here

0 votos

Muchas gracias por los útiles comentarios. Desgraciadamente, la serie temporal representa los parámetros estimados de un modelo (de mortalidad) para una serie de años. Por lo tanto, no creo que la inclusión de componentes estacionales pueda resolver este problema. En cuanto a tu punto de partida de un modelo tentativo simple y luego iterar a un modelo más complejo: Mirando el ACF y el PACF de los Residuales del ARIMA(0,1,1), muestran un comportamiento WN. ¿Qué tipo de patrón se me escapa que pondría de manifiesto la necesidad de un modelo más complejo? Por cierto, acabo de añadir mis datos.

0 votos

Muchas gracias por tu esfuerzo y comentarios. Curiosamente, los parámetros representan un efecto de cohorte de los modelos de mortalidad, que comúnmente se han modelado como un simple modelo ARIMA(p,d,q) en la literatura, véase por ejemplo pensions-institute.org/workingpapers/wp0801.pdf

0 votos

La palabra clave aquí es "simple". Los actuarios, aunque sean matemáticos dotados, no son necesariamente punteros en el análisis de series temporales. Un buen análisis presenta pruebas de significación y suficiencia que muestran pruebas de supuestos. Podrías transmitir estos resultados a los autores y obtener su opinión o, al menos, el mérito de ampliar su conciencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X