Processing math: 100%

3 votos

Backtesting/validación cruzada para series temporales e intervalos de predicción

Supongamos que realizo la siguiente ejercicio con mi fiel software de estadísticas:

  • Ajustar algún modelo de serie temporal a los datos y1,,yt y calcular ˆyt+1 la previsión de la siguiente observación, y el error et+1=yt+1ˆyt+1 para esa observación del pronóstico.
  • Repita el paso anterior para t=m,,n1 donde m es el número mínimo de observaciones necesarias para ajustar mi modelo.
  • Trazo la distribución de los errores em+1,,en o calcular sus percentiles

¿Qué relación tiene esa distribución con el intervalo de predicción analítico para ˆyt+1 ?

Mi intuición es que la distribución de los errores de este proceso iterativo de CV no dice mucho sobre la variabilidad de la predicción a partir de la previsión realizada con el final versión del modelo. A medida que el modelo se entrena con más datos, los errores tenderán a disminuir con cada paso. Así que los errores grandes serán de las primeras versiones del modelo y los errores pequeños vendrán de las versiones posteriores. La versión final del modelo se parece más a la versión tardía de errores pequeños, por lo que no tiene sentido considerar que los errores grandes iniciales proceden de la distribución de errores de ese modelo final. Incluso si no hay ninguna mejora en el modelo a medida que se alimentan más datos, muchos modelos de series temporales producen intervalos de predicción analíticos. Eso le dirá si la diferencia entre lo real y la predicción que observa es un valor atípico o no.

2voto

max Puntos 6

Su intuición me parece correcta. Supongamos, por ejemplo, que yn+1=mk=1θkyn+1k+ϵn+1 donde ϵn+1N(0,1) . Si se opta por ajustar un modelo con al menos x observaciones entonces estoy asumiendo que quieres los parámetros del modelo predicho ˆθ1,,ˆθm para que sean estables, es decir, que no cambien mucho a medida que aumenta el conjunto de entrenamiento. En este caso, θiˆθiwi para algunos wi siempre que el conjunto de entrenamiento sea al menos tan grande como x . Ahora tenemos yn+1ˆyn+1=mk=1θkyn+1kˆθkyn+1k+ϵn+1mk=1wkyn+1k+ϵn+1. Por lo tanto, dadas las observaciones y1,,yn El ϵn+1 debe ser independiente de ϵ1,ϵ2,,ϵn . En particular, el intervalo de predicción debe ser generado por N(ˆyn+1+mk=1wkyn+1k,1). Por ello, no parece haber una relación directa entre el intervalo de predicción de ˆyn+1 y los errores previos. Sin embargo, me gustaría mencionar que si los errores están correlacionados E[ϵiϵjy1,,yj]0,   i<j entonces creo que no debería ser difícil demostrar que el RMSE estimado producido por el procedimiento de validación cruzada que describes estará sesgado. Esto me hace pensar que el procedimiento, como forma de CV para la selección de modelos, no es fiable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X