Tengo una pregunta relacionada con la modelización de series temporales cortas. No es una pregunta si para modelarlos Pero cómo. ¿Qué método recomendaría usted para modelar series temporales (muy) cortas (digamos de longitud $T \leq 20$ )? Por "mejor" me refiero aquí a la más robusta, es decir, la menos propensa a errores debido al hecho del número limitado de observaciones. En el caso de las series cortas, las observaciones individuales podrían influir en la previsión, por lo que el método debería proporcionar una estimación prudente de los errores y la posible variabilidad relacionada con la previsión. En general, me interesan las series temporales univariantes, pero también sería interesante conocer otros métodos.
Respuestas
¿Demasiados anuncios?Es muy Es habitual que los métodos de previsión extremadamente sencillos, como la "previsión de la media histórica", superen a los métodos más complejos. Esto es aún más probable para las series temporales cortas. Sí, en principio se puede ajustar un modelo ARIMA o incluso más complejo a 20 o menos observaciones, pero es bastante probable que se sobreajuste y se obtengan previsiones muy malas.
Así que: empieza con un punto de referencia sencillo, por ejemplo,
- la media histórica
- la mediana histórica para mayor solidez
- el paseo aleatorio (prever la última observación fuera)
Evalúen estos datos fuera de la muestra. Compare cualquier modelo más complejo con estos puntos de referencia. Le sorprenderá ver lo difícil que es superar estos métodos sencillos. Además, compare la solidez de los distintos métodos con estos sencillos, por ejemplo, no sólo evaluando media precisión fuera de la muestra, sino también la varianza del error , utilizando su medida de error favorita .
Sí, como Rob Hyndman escribe en su post que Aleksandr enlaza con La prueba fuera de muestra es un problema en sí mismo para las series cortas, pero realmente no hay una buena alternativa. ( No lo hagas utilizar el ajuste en la muestra, que no es una guía para la precisión de las previsiones .) El AIC no le ayudará con la mediana y el paseo aleatorio. Sin embargo, usted podría utilice validación cruzada de series temporales que el AIC aproxima, de todos modos.
Una vez más, aprovecho una pregunta para aprender más sobre series temporales - uno de los (muchos) temas de mi interés. Tras una breve investigación, me parece que existen varios enfoques para el problema de la modelización de series temporales cortas.
El primer enfoque consiste en utilizar modelos de series temporales estándar/lineales (AR, MA, ARMA, etc.), sino prestar atención a ciertos parámetros, como se describe en este puesto [1] de Rob Hyndman, que no necesita una introducción en el mundo de las series temporales y las previsiones. El segundo enfoque, al que se refiere la mayor parte de la literatura relacionada que he visto, sugiere utilizar modelos de series temporales no lineales En particular, el modelos de umbral [2], que incluyen modelo autorregresivo de umbral (TAR) , TAR de autoexclusión (SETAR) , modelo de media móvil autorregresiva de umbral (TARMA) y TARMAX que amplía el modelo TAR a las series temporales exógenas. Excelente resúmenes de los modelos de series temporales no lineales, incluidos los modelos de umbral, pueden encontrarse en este documento [3] y este documento [4].
Por último, otro relacionado con IMHO documento de investigación [5] describe un enfoque interesante, que se basa en Volterra-Weiner representación de sistemas no lineales - véase este [6] y este [7]. Se argumenta que este enfoque es superior a otras técnicas en el contexto de series temporales cortas y ruidosas .
Referencias
- Hyndman, R. (4 de marzo de 2014). Ajuste de modelos a series temporales cortas. [Entrada en el blog]. Extraído de http://robjhyndman.com/hyndsight/short-time-series
- Universidad Estatal de Pensilvania. (2015). Modelos de umbral. [Materiales del curso en línea]. STAT 510, Análisis de Series Temporales Aplicadas. Extraído de https://online.stat.psu.edu/stat510/lesson/13/13.2
- Zivot, E. (2006). Modelos de series temporales no lineales. [Apuntes de clase]. ECON 584, Econometría de Series Temporales. Universidad de Washington. Extraído de http://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdf
- Chen, C. W. S., So, M. K. P., & Liu, F.-C. (2011). A review of threshold time series models in finance. Las estadísticas y su interfaz, 4 , 167-181. Extraído de http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
- Barahona, M., y Poon, C.-S. (1996). Detección de la dinámica no lineal de series temporales cortas y ruidosas. Naturaleza, 381 , 215-217. Extraído de http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
- Franz, M. O. (2011). Series de Volterra y Wiener. Scholarpedia, 6 (10):11307. Extraído de http://www.scholarpedia.org/article/Volterra_and_Wiener_series
- Franz, M. O., y Scholkopf, B. (s.f.). Una visión unificadora de la teoría de Wiener y Volterra y la regresión de núcleos polinómicos. Extraído de http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf
No, no hay una mejor univariante extrapolación para una serie temporal corta con $T \leq 20$ serie. Los métodos de extrapolación necesitan muchísimos datos.
Después de métodos cualitativos funcionan bien en la práctica para datos muy cortos o nulos:
- Previsiones compuestas
- Encuestas
- Método Delphi
- Construcción de escenarios
- Previsión por analogía
- Opinión del Ejecutivo
Uno de los mejores métodos que conozco y que funciona muy bien es el uso de analogías estructuradas (5º en la lista anterior) en el que se buscan productos similares/análogos en la categoría que se intenta pronosticar y se utilizan para hacer previsiones a corto plazo. Vea esto artículo para ver ejemplos, y Documento SAS sobre "cómo" hacerlo utilizando, por supuesto, SAS. Una de las limitaciones es que la previsión por analogías sólo funcionará si se dispone de buenas analogías, de lo contrario se podría confiar en una previsión basada en el juicio. Aquí hay otra video del software Forecastpro sobre cómo utilizar una herramienta como Forecastpro para hacer previsiones por analogía. La elección de una analogía es más un arte que una ciencia y se necesita experiencia en el sector para seleccionar productos/situaciones análogas.
Dos excelentes recursos para la previsión de productos cortos o nuevos:
- Principio de previsión de Armstrong
- Previsión de nuevos productos de Kahn
Lo siguiente es a título ilustrativo.Acabo de terminar de leer Señal y ruido de Nate Silver, en el que hay un buen ejemplo sobre la burbuja y la predicción del mercado de la vivienda en Estados Unidos y Japón (análogo al mercado estadounidense). En el gráfico de abajo si usted se detiene en 10 puntos de datos y utilizar uno de los métodos de extrapolación (exponencial smooting/ets/arima ...) y ver donde te lleva y donde el real terminó. De nuevo, el ejemplo que he presentado es mucho más complejo que la simple extrapolación de la tendencia. Esto es sólo para resaltar los riesgos de la extrapolación de la tendencia utilizando puntos de datos limitados. Además, si tu producto tiene un patrón estacional, tienes que utilizar algún tipo de situación de productos análogos para hacer la previsión. Leí un artículo, creo que en el Journal of Business research, en el que se decía que si se tenían 13 semanas de ventas de productos farmacéuticos, se podían predecir los datos con mayor precisión utilizando productos análogos.
La suposición de que el número de observaciones es crítico procede de un comentario poco serio de G.E.P. Box sobre el tamaño mínimo de la muestra para identificar un modelo. Una respuesta más matizada, en mi opinión, es que el problema/la calidad de la identificación del modelo no se basa únicamente en el tamaño de la muestra, sino en la relación entre la señal y el ruido de los datos. Si la relación señal/ruido es fuerte, se necesitan menos observaciones. Si la relación señal/ruido es baja, se necesitan más muestras para la identificación. Si su conjunto de datos es mensual y dispone de 20 valores, no es posible identificar empíricamente un modelo estacional. Sin embargo, si cree que los datos pueden ser estacionales, podría iniciar el proceso de modelización especificando un ar(12) y, a continuación, realizar diagnósticos del modelo (pruebas de significación) para reducir o aumentar su modelo estructuralmente deficiente.
Con datos muy limitados, me inclinaría más por ajustar los datos mediante técnicas bayesianas.
La estacionariedad puede ser un poco complicada cuando se trata de modelos bayesianos de series temporales. Una opción es imponer restricciones a los parámetros. O bien, podría no hacerlo. Esto está bien si sólo quiere ver la distribución de los parámetros. Sin embargo, si usted quiere generar la predicción posterior, entonces usted podría tener un montón de previsiones que explotan.
La documentación de Stan proporciona algunos ejemplos en los que se ponen restricciones a los parámetros de los modelos de series temporales para garantizar la estacionariedad. Esto es posible para los modelos relativamente simples que utilizan, pero puede ser prácticamente imposible en modelos de series temporales más complicados. Si realmente se quisiera asegurar la estacionariedad, se podría utilizar un algoritmo de Metrópolis-Hastings y desechar los coeficientes que sean impropios. Sin embargo, esto requiere que se calculen muchos valores propios, lo que ralentizará las cosas.
- Ver respuestas anteriores
- Ver más respuestas