Backtesting/validación cruzada para series temporales e intervalos de predicción

Question

Backtesting/validación cruzada para series temporales e intervalos de predicción

Preguntado el 19 de Junio, 2013: Cuando se hizo la pregunta
2012 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Supongamos que realizo la siguiente ejercicio con mi fiel software de estadísticas:

Ajustar algún modelo de serie temporal a los datos $y_1,\dots,y_t$ y calcular $\hat{y}_{t+1}$ la previsión de la siguiente observación, y el error $e_{t+1}^*=y_{t+1}-\hat{y}_{t+1}$ para esa observación del pronóstico.
Repita el paso anterior para $t=m,\dots,n-1$ donde $m$ es el número mínimo de observaciones necesarias para ajustar mi modelo.
Trazo la distribución de los errores $e_{m+1}^*,\dots,e_{n}^*$ o calcular sus percentiles

¿Qué relación tiene esa distribución con el intervalo de predicción analítico para $\hat y_{t+1}$ ?

Mi intuición es que la distribución de los errores de este proceso iterativo de CV no dice mucho sobre la variabilidad de la predicción a partir de la previsión realizada con el final versión del modelo. A medida que el modelo se entrena con más datos, los errores tenderán a disminuir con cada paso. Así que los errores grandes serán de las primeras versiones del modelo y los errores pequeños vendrán de las versiones posteriores. La versión final del modelo se parece más a la versión tardía de errores pequeños, por lo que no tiene sentido considerar que los errores grandes iniciales proceden de la distribución de errores de ese modelo final. Incluso si no hay ninguna mejora en el modelo a medida que se alimentan más datos, muchos modelos de series temporales producen intervalos de predicción analíticos. Eso le dirá si la diferencia entre lo real y la predicción que observa es un valor atípico o no.

Preguntado el 19 de Junio, 2013 por Neal

Answer 1

1 Respuestas

Answer 2

2voto

max Puntos 6

Su intuición me parece correcta. Supongamos, por ejemplo, que $y_{n + 1} = \sum_{k = 1}^m \theta_k y_{n + 1 - k} + \epsilon_{n + 1}$ donde $\epsilon_{n + 1} \sim N(0, 1)$ . Si se opta por ajustar un modelo con al menos $x$ observaciones entonces estoy asumiendo que quieres los parámetros del modelo predicho $\hat{\theta}_1, \dots, \hat{\theta}_m$ para que sean estables, es decir, que no cambien mucho a medida que aumenta el conjunto de entrenamiento. En este caso, $\theta_i - \hat{\theta}_i \approx w_i$ para algunos $w_i$ siempre que el conjunto de entrenamiento sea al menos tan grande como $x$ . Ahora tenemos $\begin{eqnarray} y_{n + 1} - \hat{y}_{n + 1} &=& \sum_{k = 1}^m \theta_k y_{n + 1 - k} - \hat{\theta}_k y_{n + 1 - k} + \epsilon_{n + 1} \\ &\approx& \sum_{k = 1}^m w_k y_{n + 1 - k} + \epsilon_{n + 1}. \end{eqnarray}$ Por lo tanto, dadas las observaciones $y_1, \dots, y_n$ El $\epsilon_{n + 1}$ debe ser independiente de $\epsilon_1, \epsilon_2, \dots, \epsilon_n$ . En particular, el intervalo de predicción debe ser generado por $N\left(\hat{y}_{n + 1} + \sum_{k = 1}^m w_k y_{n + 1 - k}, 1 \right).$ Por ello, no parece haber una relación directa entre el intervalo de predicción de $\hat{y}_{n+1}$ y los errores previos. Sin embargo, me gustaría mencionar que si los errores están correlacionados $E[\epsilon_i\epsilon_j \mid y_1, \dots, y_j] \neq 0, ~~~ i < j$ entonces creo que no debería ser difícil demostrar que el RMSE estimado producido por el procedimiento de validación cruzada que describes estará sesgado. Esto me hace pensar que el procedimiento, como forma de CV para la selección de modelos, no es fiable.

Respondido el 25 de Junio, 2013 por max (6 Puntos )

Backtesting/validación cruzada para series temporales e intervalos de predicción

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Backtesting/validación cruzada para series temporales e intervalos de predicción

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: