3 votos

Backtesting/validación cruzada para series temporales e intervalos de predicción

Supongamos que realizo la siguiente ejercicio con mi fiel software de estadísticas:

  • Ajustar algún modelo de serie temporal a los datos $y_1,\dots,y_t$ y calcular $\hat{y}_{t+1}$ la previsión de la siguiente observación, y el error $e_{t+1}^*=y_{t+1}-\hat{y}_{t+1}$ para esa observación del pronóstico.
  • Repita el paso anterior para $t=m,\dots,n-1$ donde $m$ es el número mínimo de observaciones necesarias para ajustar mi modelo.
  • Trazo la distribución de los errores $e_{m+1}^*,\dots,e_{n}^*$ o calcular sus percentiles

¿Qué relación tiene esa distribución con el intervalo de predicción analítico para $\hat y_{t+1}$ ?

Mi intuición es que la distribución de los errores de este proceso iterativo de CV no dice mucho sobre la variabilidad de la predicción a partir de la previsión realizada con el final versión del modelo. A medida que el modelo se entrena con más datos, los errores tenderán a disminuir con cada paso. Así que los errores grandes serán de las primeras versiones del modelo y los errores pequeños vendrán de las versiones posteriores. La versión final del modelo se parece más a la versión tardía de errores pequeños, por lo que no tiene sentido considerar que los errores grandes iniciales proceden de la distribución de errores de ese modelo final. Incluso si no hay ninguna mejora en el modelo a medida que se alimentan más datos, muchos modelos de series temporales producen intervalos de predicción analíticos. Eso le dirá si la diferencia entre lo real y la predicción que observa es un valor atípico o no.

2voto

max Puntos 6

Su intuición me parece correcta. Supongamos, por ejemplo, que $$ y_{n + 1} = \sum_{k = 1}^m \theta_k y_{n + 1 - k} + \epsilon_{n + 1} $$ donde $\epsilon_{n + 1} \sim N(0, 1)$ . Si se opta por ajustar un modelo con al menos $x$ observaciones entonces estoy asumiendo que quieres los parámetros del modelo predicho $\hat{\theta}_1, \dots, \hat{\theta}_m$ para que sean estables, es decir, que no cambien mucho a medida que aumenta el conjunto de entrenamiento. En este caso, $\theta_i - \hat{\theta}_i \approx w_i$ para algunos $w_i$ siempre que el conjunto de entrenamiento sea al menos tan grande como $x$ . Ahora tenemos \begin{eqnarray} y_{n + 1} - \hat{y}_{n + 1} &=& \sum_{k = 1}^m \theta_k y_{n + 1 - k} - \hat{\theta}_k y_{n + 1 - k} + \epsilon_{n + 1} \\ &\approx& \sum_{k = 1}^m w_k y_{n + 1 - k} + \epsilon_{n + 1}. \end{eqnarray} Por lo tanto, dadas las observaciones $y_1, \dots, y_n$ El $\epsilon_{n + 1}$ debe ser independiente de $\epsilon_1, \epsilon_2, \dots, \epsilon_n$ . En particular, el intervalo de predicción debe ser generado por $$ N\left(\hat{y}_{n + 1} + \sum_{k = 1}^m w_k y_{n + 1 - k}, 1 \right). $$ Por ello, no parece haber una relación directa entre el intervalo de predicción de $\hat{y}_{n+1}$ y los errores previos. Sin embargo, me gustaría mencionar que si los errores están correlacionados $$ E[\epsilon_i\epsilon_j \mid y_1, \dots, y_j] \neq 0, ~~~ i < j $$ entonces creo que no debería ser difícil demostrar que el RMSE estimado producido por el procedimiento de validación cruzada que describes estará sesgado. Esto me hace pensar que el procedimiento, como forma de CV para la selección de modelos, no es fiable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X