Supongamos que tengo datos longitudinales de la forma $\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)$ (Tengo múltiples observaciones, ésta es sólo la forma de una sola). Me interesan las restricciones de $\Sigma$ . Una licencia sin restricciones $\Sigma$ equivale a tomar $$ Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j $$ con $\varepsilon_j \sim N(0, \sigma_j)$ .
Esto no suele hacerse porque requiere estimar $O(J^2)$ parámetros de covarianza. Un modelo es "lag- $k$ " si tomamos $$ Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j, $$ es decir, sólo utilizamos el precedente $k$ términos para predecir $Y_j$ de la historia.
Lo que realmente me gustaría hacer es utilizar algún tipo de idea de contracción para reducir a cero algunos de los $\phi_{\ell j}$ como el LASSO. Pero la cosa es que también me gustaría que el método que utilizo prefiriera los modelos que son lag- $k$ para algunos $k$ Me gustaría penalizar más los rezagos de orden superior que los de orden inferior. Creo que esto es algo que nos gustaría hacer particularmente dado que los predictores están altamente correlacionados.
Una cuestión adicional es que si (digamos) $\phi_{35}$ se reduce a $0$ También me gustaría que $\phi_{36}$ se reduce a $0$ es decir, se utiliza el mismo retardo en todas las distribuciones condicionales.
Podría especular sobre esto, pero no quiero reinventar la rueda. ¿Existe alguna técnica LASSO diseñada para abordar este tipo de problema? ¿Es mejor que haga algo completamente distinto, como la inclusión gradual de órdenes de retardo? Como mi espacio de modelos es pequeño, podría incluso utilizar un $L_0$ pena en este problema supongo?