4 votos

El modelo ARIMA(1,1,2) para log(conjunto de datos) parece insignificante en comparación con el modelo ARIMA(1,0,2) para diff(log(conjunto de datos))

Estoy tratando de ajustar el modelo ARIMA para mi conjunto de datos. Hice los siguientes pasos:

  1. Aquí está mi gráfico del conjunto de datos y log tras la transformación logarítmica ( ds_log ). enter image description here

  2. Con el fin de archivar estacionario, así que transformé por log y diff . He probado la estacionaria por Ljung-Box y KPSS. Podemos ver que el modelo ajustado es bastante bueno para diff(ds_log) . La línea negra son los datos originales, la línea roja es el valor ajustado.

    > Box.test(diff(ds_log), type = "Ljung-Box")
        Box-Ljung test
    
    data:  diff(ds_log)
    X-squared = 48.939, df = 1, p-value = 2.64e-12
    
    > kpss.test(diff(ds_log)) # p-value > 0.05, reject H0
    
        KPSS Test for Level Stationarity
    
    data:  diff(ds_log)
    KPSS Level = 0.072684, Truncation lag parameter = 3, p-value = 0.1
  3. He encontrado el modelo ARIMA(1,0,2) para diff(ds_log) basado en ACF y PACF. Este es el gráfico para diff(ds_log) y las líneas del modelo ajustado.

    fit <- Arima(diff(ds_log), order=c(1,0,2))
    plot(diff(ds_log))
    lines(fitted(fit), col="red", lty=2)

    enter image description here

  4. Diagrama de diagnóstico residual. enter image description here

Prueba de ruido blanco por Ljung-Box.

    > Box.test(fit$residuals, lag=20, type = "Ljung-Box")

        Box-Ljung test

    data:  fit$residuals
    X-squared = 15.252, df = 20, p-value = 0.7618

Sin embargo, cuando ajusté el modelo para ds_log por ARIMA(1,1,2) . El modelo no se ve bien mientras el residuo es ruido blanco.

    > fit2 <- Arima(ds_log, order=c(1,1,2))
    > plot(ds_log)
    > lines(fitted(fit2), col="red",lty=2)

enter image description here

Podemos ver que el valor ajustado está retrasado en comparación con el valor original. Aquí está el diagnóstico de residuos y la prueba de Ljung-Box.

    > tsdiag(fit2)
    > Box.test(fit2$residuals, lag=20, type = "Ljung-Box")

        Box-Ljung test

    data:  fit2$residuals
    X-squared = 14.98, df = 20, p-value = 0.7776

fit2 diag

¿Por qué el modelo ARIMA(1,1,2) en ds_log parecen mal ajustados en comparación con ARIMA(1,0,2) en diff(ds_log) ?

0 votos

Pruebas de Ljung-Box para la autocorrelación, no para la estacionalidad/no estacionalidad. Además, ¿qué quiere decir con un modelo parece insignificante ?

0 votos

@RichardHardy. Puedes ver 2 parcelas: La primera parcela ( enlace ), la línea para el valor ajustado coincide bastante con la pendiente, mientras que en el segundo gráfico ( enlace ), el valor ajustado no cumple con la pendiente, se retrasa 1 valor en comparación con el valor original.

1 votos

Muy bien. La significación tiene un significado fijo en estadística y econometría, por lo que sugiero utilizar expresiones alternativas, por ejemplo, decir que el modelo se ajusta mal a los datos .

2voto

Owen Fraser-Green Puntos 642

La identificación/estimación del modelo ARIMA puede verse seriamente afectada por la presencia de una estructura determinista en los datos. La estructura determinista puede incluir pulsos, cambios de nivel/escalón, pulsos estacionales y/o tendencias temporales. Estadísticas para la tendencia de las series temporales en R Sus residuos sugieren que podría ser necesario un enfoque híbrido. La heterogeneidad de la varianza puede tratarse a menudo utilizando GLS (estimación ponderada) en lugar de una transformada de potencia. Véase ¿Cuándo (y por qué) hay que tomar el logaritmo de una distribución (de números)? para una discusión sobre esto. Le sugiero que publique sus datos y trataré de ayudarle más.

EDITADO TRAS LA RECEPCIÓN DE LOS DATOS:

Tomé sus 211 valores mensuales y utilicé AUTOBOX (un programa informático que he ayudado a desarrollar) y solicité un análisis totalmente automático (con detalles paso a paso). Los datos originales (antes de que los torturaras con la diferenciación (inyectando estructura ver ¿Cuáles son las consecuencias de no cumplir los supuestos para los residuos del modelo ARIMA? ) Y tomar registros injustificados enter image description here . El ACF sugirió una posible estructura ARMA estacionaria sin necesidad de diferenciar. enter image description here . Obsérvese que la presencia de desplazamientos de nivel/pasos suele estar mal representada por la toma de diferencias, cuando una simple de-significación podría ser más apropiada. La diferenciación innecesaria inyecta estructura en los residuos, lo que hace necesaria la estructura ARMA para remediar/revertir la diferenciación incorrecta. Véase Varianza de la diferencia de $x_{i,t}$ y $x_{i,t+1}$ para examinar el impacto de diferenciar una serie con ruido blanco.

Para ilustrar esto considere el ACF de las primeras diferencias aquí enter image description here reflejando la desafortunada/desintencionada/incorrecta inyección de estructura.

El modelo que contiene tres desplazamientos escalonados y una estructura ARMA que refleja tanto un período, como tres períodos y una estructura anual (un pulso estacional en el período 11 que comenzó hace 3 años este fenómeno debe ser investigado y confirmado) está aquí enter image description here y aquí enter image description here con las siguientes estadísticas. enter image description here . Se encontraron varios pulsos que sugieren una actividad inusual y que se presentan claramente aquí enter image description here . Deben investigarse los posibles efectos de las causas de las variables no especificadas.

El gráfico de los residuos está aquí enter image description here con un ACF que sugiere una suficiencia aproximada enter image description here El gráfico de previsión está aquí enter image description here y el diagrama de Real/Fit y Previsión aquí enter image description here

Obsérvese que he añadido un valor espurio en el periodo de tiempo 212 sólo para mostrar cómo esta anomalía causada por el usuario fue efectivamente descartada, sugiriendo así la solidez del enfoque. enter image description here

Todo el enfoque que has seguido de tomar dos medicamentos/transformaciones innecesarias y usar herramientas analíticas inadecuadas ha creado un poderoso ejemplo de lo que puede salir mal y lo hizo. El primer paso en la construcción de un modelo ARIMA es examinar la ACF/PACF de la serie original y cuando se realiza un análisis no automático es revisar un gráfico de los datos originales.

No eres el único que intenta formar modelos útiles con datos complicados y herramientas básicas mientras intenta seguir un script que podría haber sido útil para un simple ejemplo de libro de texto. Los errores que has cometido no son en absoluto inusuales. Asumir que es necesario transformar (la diferenciación es una forma de transformación) y tomar registros (una forma de transformación) puede llevar al "embrollo" en el que te encontraste al ser "izado en tu propio petardo", por así decirlo, es decir, "caer en tu propia trampa".

Por último, a menudo vemos efectos trimestrales cuando se trata de datos mensuales, sobre todo en el sector farmacéutico, debido a la forma en que suelen hacer negocios.

En resumen, su análisis muestra dos tipos de errores estadísticos, a saber, la comisión y la omisión, y ha motivado mi respuesta, que pretende enseñar buenas prácticas.

1)Errores de comisión

a) Diferenciación innecesaria b) transformación de potencia innecesaria

2)Errores de omisión

c) no se tratan las anomalías (pulsos puntuales, algunos muy grandes y otros no tanto), pero todos son significativos. d) no se reconocen los cambios de nivel en los datos e) no se ha identificado el efecto del mes 11 en los últimos tres años f) no se identifica el efecto trimestral

Ha pedido detalles/criterios sobre la estrategia de detección de intervenciones:

El criterio utilizado se basa en el trabajo seminal de I. Chang , G. Tiao y, sobre todo, R.Tsay time-series-ls-ao-tc-using-tsoutliers-package-in-r-how dicusses the TSAY procedure . Esta discusión también podría ayudar a Cómo interpretar y hacer previsiones con el paquete tsoutliers y auto.arima . El principal problema del paquete tsoutliers es que requiere que se especifique previamente un modelo ARIMA en lugar de integrar la identificación del modelo ARIMA, la identificación de los valores atípicos, la identificación de la transformación de la varianza y la identificación de los parámetros variables en el tiempo, la estructura dinámica (PDL) para las series causales sugeridas por el usuario, mientras que AUTOBOX (disponible en R) hace todo esto.

0 votos

Gracias por su apoyo. Aquí está mi conjunto de datos (enlace) gist.github.com/anonymous/02112786081511c5c1681d432ee6‌​679c

0 votos

"Sus residuos sugieren que podría ser necesario un enfoque híbrido". ¿Qué criterios está utilizando para identificar el nuevo enfoque basado en los residuos?

0 votos

¿Cómo se denomina el enfoque para identificar pulsos, cambios de nivel/paso en el conjunto de datos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X