Supongamos que realizo la siguiente ejercicio con mi fiel software de estadísticas:
- Ajustar algún modelo de serie temporal a los datos $y_1,\dots,y_t$ y calcular $\hat{y}_{t+1}$ la previsión de la siguiente observación, y el error $e_{t+1}^*=y_{t+1}-\hat{y}_{t+1}$ para esa observación del pronóstico.
- Repita el paso anterior para $t=m,\dots,n-1$ donde $m$ es el número mínimo de observaciones necesarias para ajustar mi modelo.
- Trazo la distribución de los errores $e_{m+1}^*,\dots,e_{n}^*$ o calcular sus percentiles
¿Qué relación tiene esa distribución con el intervalo de predicción analítico para $\hat y_{t+1}$ ?
Mi intuición es que la distribución de los errores de este proceso iterativo de CV no dice mucho sobre la variabilidad de la predicción a partir de la previsión realizada con el final versión del modelo. A medida que el modelo se entrena con más datos, los errores tenderán a disminuir con cada paso. Así que los errores grandes serán de las primeras versiones del modelo y los errores pequeños vendrán de las versiones posteriores. La versión final del modelo se parece más a la versión tardía de errores pequeños, por lo que no tiene sentido considerar que los errores grandes iniciales proceden de la distribución de errores de ese modelo final. Incluso si no hay ninguna mejora en el modelo a medida que se alimentan más datos, muchos modelos de series temporales producen intervalos de predicción analíticos. Eso le dirá si la diferencia entre lo real y la predicción que observa es un valor atípico o no.