Estoy considerando dos estrategias para hacer un "aumento de datos" en la previsión de series temporales.
Primero, un poco de historia. Un predictor $P$ para predecir el siguiente paso de una serie temporal $\lbrace A_i\rbrace$ es una función que normalmente depende de dos cosas, los estados pasados de la serie temporal, pero también los estados pasados del predictor:
$$P(\lbrace A_{i\leq t-1}\rbrace,P_{S_{t-1}})$$
Si queremos ajustar/entrenar nuestro sistema para obtener un buen $P$ entonces necesitaremos suficientes datos. A veces, los datos disponibles no son suficientes, por lo que nos planteamos aumentarlos.
Primera aproximación
Supongamos que tenemos la serie temporal $\lbrace A_i \rbrace$ con $1 \leq i \leq n$ . Y supongamos también que tenemos $\epsilon$ que cumpla la siguiente condición: $0<\epsilon < |A_{i+1} - A_i| \forall i \in \lbrace 1, \ldots,n\rbrace$ .
Podemos construir una nueva serie temporal $\lbrace B_i = A_i+r_i\rbrace$ donde $r_i$ es una realización de la distribución $N(0,\frac{\epsilon}{2}) $ .
Entonces, en lugar de minimizar la función de pérdida sólo sobre $\lbrace A_i \rbrace$ También lo hacemos en $\lbrace B_i \rbrace$ . Por lo tanto, si el proceso de optimización dura $m$ pasos, tenemos que "inicializar" el predictor $2m$ veces, y calcularemos aproximadamente $2m(n-1)$ estados internos del predictor.
Segundo enfoque
Calculamos $\lbrace B_i \rbrace$ como antes, pero no actualizamos el estado interno del predictor utilizando $\lbrace B_i \rbrace$ pero $\lbrace A_i \rbrace$ . Sólo utilizaremos las dos series juntas en el momento de calcular la función de pérdida, por lo que calcularemos aproximadamente $m(n-1)$ estados internos del predictor.
Por supuesto, aquí hay menos trabajo computacional (aunque el algoritmo es un poco más feo), pero no importa por ahora.
La duda
El problema es: desde un punto de vista estadístico, ¿cuál es la "mejor" opción? ¿Y por qué?
Mi intuición me dice que la primera es mejor, porque ayuda a "regularizar" las ponderaciones relacionadas con el estado interno, mientras que la segunda sólo ayuda a regularizar las ponderaciones relacionadas con el pasado de las series temporales observadas.
Extra:
- ¿Alguna otra idea para aumentar los datos en la previsión de series temporales?
- ¿Cómo ponderar los datos sintéticos en el conjunto de entrenamiento?