Respuesta a la pregunta 1.
Chen y Chan "Selección de subconjuntos ARMA mediante el Lasso adaptativo" (2011)* utilizan una solución para evitar la estimación de máxima verosimilitud, que es muy exigente desde el punto de vista computacional. Citando el artículo
proponen encontrar un modelo ARMA subconjunto óptimo ajustando una regresión Lasso adaptativa de la serie temporal $y_t$ en sus propios rezagos y los de los residuos que se obtienen de ajustar una autoregresión larga a la $y_t$ s. <...> [S]in condiciones de regularidad leves, el método propuesto alcanza las propiedades de oráculo, es decir, identifica el subconjunto correcto del modelo ARMA con probabilidad tendente a uno a medida que el tamaño de la muestra aumenta hasta el infinito, y <...> los estimadores de los coeficientes no nulos son asintóticamente normales con la distribución límite igual que cuando los coeficientes nulos son conocidos a priori.
Opcionalmente, sugieren la estimación de máxima verosimilitud y el diagnóstico del modelo para el subconjunto seleccionado de modelos ARMA.
Wilms et al. "Identificación y estimación dispersa de medias móviles autorregresivas vectoriales de alta dimensión" (2017) hacen incluso más de lo que pedí. En lugar de un modelo ARIMA univariante, toman un ARMA vectorial (VARMA) en dimensiones altas, y utilizan un $L_1$ para la estimación y la selección del orden de retardo. Presentan el algoritmo de estimación y desarrollan algunos resultados asintóticos.
En concreto, emplean un procedimiento en dos fases. Consideremos un modelo VARMA $$ y_t = \sum_{l=1}^p \Phi_l y_{t-l} + \sum_{m=1}^q \Theta_m \varepsilon_{t-m} + \varepsilon_t $$ que hay que estimar, pero el desfase ordena $p$ y $q$ son desconocidos.
-
En la Etapa 1, aproximan el modelo VARMA mediante un modelo VAR de alto orden y lo estiman utilizando un estimador VAR jerárquico que coloca un retardo basado en el modelo VAR de alto orden. jerárquico de grupo-lasso sobre los parámetros autorregresivos.
(El orden de retardo se establece en $\lfloor 1.5\sqrt{T} \rfloor$ . Las ecuaciones del modelo se estiman conjuntamente y la norma de Frobenius de los errores $||y-\hat y||_2^F$ se minimiza con una penalización jerárquica de grupo-lasso sobre los coeficientes de regresión).
Obtienen residuos $\hat\varepsilon := y - \hat y$ que se utilizarán como sustitutos de los errores reales en la fase 2.
-
En la etapa 2, estiman un modelo VARX en el que X representa los residuos retardados de la etapa 1. Es decir, calculan un modelo VARMA pero utilizan los residuos estimados en lugar de los errores reales, $$ y_t = \sum_{l=1}^{\hat p} \Phi_l y_{t-l} + \sum_{m=1}^{\hat q} \Theta_m \hat\varepsilon_{t-m} + u_t, $$ lo que permite volver a aplicar el mismo estimador (grupo-lasso jerárquico) igual que en la etapa 1.
( $\hat p$ y $\hat q$ se establecen en $\lfloor 1.5\sqrt{T} \rfloor$ .)
El planteamiento de Wilms et al. es implementado en el paquete R "bigtime" .
Referencias
- Chen, K., y Chan, K. S. (2011). Selección de subconjuntos ARMA mediante el Lasso adaptativo. Estadísticas y su interfaz , 4(2), 197-205.
- Wilms, I., Basu, S., Bien, J. y Matteson, D. S. (2017). Sparse Identification and Estimation of High-Dimensional Vector AutoRegressive Moving Averages. arXiv preprint arXiv:1707.09208.
*Gracias a @hejseb por el enlace.