El modelo ARIMA(1,1,2) para log(conjunto de datos) parece insignificante en comparación con el modelo ARIMA(1,0,2) para diff(log(conjunto de datos))

Question

El modelo ARIMA(1,1,2) para log(conjunto de datos) parece insignificante en comparación con el modelo ARIMA(1,0,2) para diff(log(conjunto de datos))

Preguntado el 3 de Enero, 2017: Cuando se hizo la pregunta
232 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de ajustar el modelo ARIMA para mi conjunto de datos. Hice los siguientes pasos:

Aquí está mi gráfico del conjunto de datos y log tras la transformación logarítmica ( ds_log ).

Con el fin de archivar estacionario, así que transformé por log y diff . He probado la estacionaria por Ljung-Box y KPSS. Podemos ver que el modelo ajustado es bastante bueno para diff(ds_log) . La línea negra son los datos originales, la línea roja es el valor ajustado.

> Box.test(diff(ds_log), type = "Ljung-Box")
    Box-Ljung test

data:  diff(ds_log)
X-squared = 48.939, df = 1, p-value = 2.64e-12

> kpss.test(diff(ds_log)) # p-value > 0.05, reject H0

    KPSS Test for Level Stationarity

data:  diff(ds_log)
KPSS Level = 0.072684, Truncation lag parameter = 3, p-value = 0.1

He encontrado el modelo ARIMA(1,0,2) para diff(ds_log) basado en ACF y PACF. Este es el gráfico para diff(ds_log) y las líneas del modelo ajustado.
```
fit <- Arima(diff(ds_log), order=c(1,0,2))
plot(diff(ds_log))
lines(fitted(fit), col="red", lty=2)
```
Diagrama de diagnóstico residual.

Prueba de ruido blanco por Ljung-Box.

    > Box.test(fit$residuals, lag=20, type = "Ljung-Box")

        Box-Ljung test

    data:  fit$residuals
    X-squared = 15.252, df = 20, p-value = 0.7618

Sin embargo, cuando ajusté el modelo para ds_log por ARIMA(1,1,2) . El modelo no se ve bien mientras el residuo es ruido blanco.

    > fit2 <- Arima(ds_log, order=c(1,1,2))
    > plot(ds_log)
    > lines(fitted(fit2), col="red",lty=2)

Podemos ver que el valor ajustado está retrasado en comparación con el valor original. Aquí está el diagnóstico de residuos y la prueba de Ljung-Box.

    > tsdiag(fit2)
    > Box.test(fit2$residuals, lag=20, type = "Ljung-Box")

        Box-Ljung test

    data:  fit2$residuals
    X-squared = 14.98, df = 20, p-value = 0.7776

¿Por qué el modelo ARIMA(1,1,2) en ds_log parecen mal ajustados en comparación con ARIMA(1,0,2) en diff(ds_log) ?

Preguntado el 3 de Enero, 2017 por MrCharley

0 votos

Pruebas de Ljung-Box para la autocorrelación, no para la estacionalidad/no estacionalidad. Además, ¿qué quiere decir con un modelo parece insignificante ?

Comentado el 3 de Enero, 2017 por Richard Hardy

0 votos

@RichardHardy. Puedes ver 2 parcelas: La primera parcela ( enlace ), la línea para el valor ajustado coincide bastante con la pendiente, mientras que en el segundo gráfico ( enlace ), el valor ajustado no cumple con la pendiente, se retrasa 1 valor en comparación con el valor original.

Comentado el 3 de Enero, 2017 por MrCharley

1 votos

Muy bien. La significación tiene un significado fijo en estadística y econometría, por lo que sugiero utilizar expresiones alternativas, por ejemplo, decir que el modelo se ajusta mal a los datos .

Comentado el 3 de Enero, 2017 por Richard Hardy

Answer 1

1 Respuestas

Answer 2

2voto

Owen Fraser-Green Puntos 642

La identificación/estimación del modelo ARIMA puede verse seriamente afectada por la presencia de una estructura determinista en los datos. La estructura determinista puede incluir pulsos, cambios de nivel/escalón, pulsos estacionales y/o tendencias temporales. Estadísticas para la tendencia de las series temporales en R Sus residuos sugieren que podría ser necesario un enfoque híbrido. La heterogeneidad de la varianza puede tratarse a menudo utilizando GLS (estimación ponderada) en lugar de una transformada de potencia. Véase ¿Cuándo (y por qué) hay que tomar el logaritmo de una distribución (de números)? para una discusión sobre esto. Le sugiero que publique sus datos y trataré de ayudarle más.

EDITADO TRAS LA RECEPCIÓN DE LOS DATOS:

Tomé sus 211 valores mensuales y utilicé AUTOBOX (un programa informático que he ayudado a desarrollar) y solicité un análisis totalmente automático (con detalles paso a paso). Los datos originales (antes de que los torturaras con la diferenciación (inyectando estructura ver ¿Cuáles son las consecuencias de no cumplir los supuestos para los residuos del modelo ARIMA? ) Y tomar registros injustificados . El ACF sugirió una posible estructura ARMA estacionaria sin necesidad de diferenciar. . Obsérvese que la presencia de desplazamientos de nivel/pasos suele estar mal representada por la toma de diferencias, cuando una simple de-significación podría ser más apropiada. La diferenciación innecesaria inyecta estructura en los residuos, lo que hace necesaria la estructura ARMA para remediar/revertir la diferenciación incorrecta. Véase Varianza de la diferencia de $x_{i,t}$ y $x_{i,t+1}$ para examinar el impacto de diferenciar una serie con ruido blanco.

Para ilustrar esto considere el ACF de las primeras diferencias aquí reflejando la desafortunada/desintencionada/incorrecta inyección de estructura.

El modelo que contiene tres desplazamientos escalonados y una estructura ARMA que refleja tanto un período, como tres períodos y una estructura anual (un pulso estacional en el período 11 que comenzó hace 3 años este fenómeno debe ser investigado y confirmado) está aquí y aquí con las siguientes estadísticas. . Se encontraron varios pulsos que sugieren una actividad inusual y que se presentan claramente aquí . Deben investigarse los posibles efectos de las causas de las variables no especificadas.

El gráfico de los residuos está aquí con un ACF que sugiere una suficiencia aproximada El gráfico de previsión está aquí y el diagrama de Real/Fit y Previsión aquí

Obsérvese que he añadido un valor espurio en el periodo de tiempo 212 sólo para mostrar cómo esta anomalía causada por el usuario fue efectivamente descartada, sugiriendo así la solidez del enfoque.

Todo el enfoque que has seguido de tomar dos medicamentos/transformaciones innecesarias y usar herramientas analíticas inadecuadas ha creado un poderoso ejemplo de lo que puede salir mal y lo hizo. El primer paso en la construcción de un modelo ARIMA es examinar la ACF/PACF de la serie original y cuando se realiza un análisis no automático es revisar un gráfico de los datos originales.

No eres el único que intenta formar modelos útiles con datos complicados y herramientas básicas mientras intenta seguir un script que podría haber sido útil para un simple ejemplo de libro de texto. Los errores que has cometido no son en absoluto inusuales. Asumir que es necesario transformar (la diferenciación es una forma de transformación) y tomar registros (una forma de transformación) puede llevar al "embrollo" en el que te encontraste al ser "izado en tu propio petardo", por así decirlo, es decir, "caer en tu propia trampa".

Por último, a menudo vemos efectos trimestrales cuando se trata de datos mensuales, sobre todo en el sector farmacéutico, debido a la forma en que suelen hacer negocios.

En resumen, su análisis muestra dos tipos de errores estadísticos, a saber, la comisión y la omisión, y ha motivado mi respuesta, que pretende enseñar buenas prácticas.

1)Errores de comisión

a) Diferenciación innecesaria b) transformación de potencia innecesaria

2)Errores de omisión

c) no se tratan las anomalías (pulsos puntuales, algunos muy grandes y otros no tanto), pero todos son significativos. d) no se reconocen los cambios de nivel en los datos e) no se ha identificado el efecto del mes 11 en los últimos tres años f) no se identifica el efecto trimestral

Ha pedido detalles/criterios sobre la estrategia de detección de intervenciones:

El criterio utilizado se basa en el trabajo seminal de I. Chang , G. Tiao y, sobre todo, R.Tsay time-series-ls-ao-tc-using-tsoutliers-package-in-r-how dicusses the TSAY procedure . Esta discusión también podría ayudar a Cómo interpretar y hacer previsiones con el paquete tsoutliers y auto.arima . El principal problema del paquete tsoutliers es que requiere que se especifique previamente un modelo ARIMA en lugar de integrar la identificación del modelo ARIMA, la identificación de los valores atípicos, la identificación de la transformación de la varianza y la identificación de los parámetros variables en el tiempo, la estructura dinámica (PDL) para las series causales sugeridas por el usuario, mientras que AUTOBOX (disponible en R) hace todo esto.

Respondido el 3 de Enero, 2017 por Owen Fraser-Green (642 Puntos )

0 votos

Gracias por su apoyo. Aquí está mi conjunto de datos (enlace) gist.github.com/anonymous/02112786081511c5c1681d432ee6‌679c

Comentado el 3 de Enero, 2017 por MrCharley

0 votos

"Sus residuos sugieren que podría ser necesario un enfoque híbrido". ¿Qué criterios está utilizando para identificar el nuevo enfoque basado en los residuos?

Comentado el 4 de Enero, 2017 por MrCharley

0 votos

¿Cómo se denomina el enfoque para identificar pulsos, cambios de nivel/paso en el conjunto de datos?

Comentado el 4 de Enero, 2017 por MrCharley

Mostrar 4 comentarios más

El modelo ARIMA(1,1,2) para log(conjunto de datos) parece insignificante en comparación con el modelo ARIMA(1,0,2) para diff(log(conjunto de datos))

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

El modelo ARIMA(1,1,2) para log(conjunto de datos) parece insignificante en comparación con el modelo ARIMA(1,0,2) para diff(log(conjunto de datos))

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: