9 votos

¿Lasso-ing el orden de un retraso?

Supongamos que tengo datos longitudinales de la forma $\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)$ (Tengo múltiples observaciones, ésta es sólo la forma de una sola). Me interesan las restricciones de $\Sigma$ . Una licencia sin restricciones $\Sigma$ equivale a tomar $$ Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j $$ con $\varepsilon_j \sim N(0, \sigma_j)$ .

Esto no suele hacerse porque requiere estimar $O(J^2)$ parámetros de covarianza. Un modelo es "lag- $k$ " si tomamos $$ Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j, $$ es decir, sólo utilizamos el precedente $k$ términos para predecir $Y_j$ de la historia.

Lo que realmente me gustaría hacer es utilizar algún tipo de idea de contracción para reducir a cero algunos de los $\phi_{\ell j}$ como el LASSO. Pero la cosa es que también me gustaría que el método que utilizo prefiriera los modelos que son lag- $k$ para algunos $k$ Me gustaría penalizar más los rezagos de orden superior que los de orden inferior. Creo que esto es algo que nos gustaría hacer particularmente dado que los predictores están altamente correlacionados.

Una cuestión adicional es que si (digamos) $\phi_{35}$ se reduce a $0$ También me gustaría que $\phi_{36}$ se reduce a $0$ es decir, se utiliza el mismo retardo en todas las distribuciones condicionales.

Podría especular sobre esto, pero no quiero reinventar la rueda. ¿Existe alguna técnica LASSO diseñada para abordar este tipo de problema? ¿Es mejor que haga algo completamente distinto, como la inclusión gradual de órdenes de retardo? Como mi espacio de modelos es pequeño, podría incluso utilizar un $L_0$ pena en este problema supongo?

2voto

Steve Puntos 477

El ordenado LASSO parece ser lo que estás buscando: Calcula los coeficientes de regresión regularizados $\beta_{1...j}$ como en el LASSO estándar, pero con la restricción adicional de que $|\beta_1| \geq |\beta_2|...\geq|\beta_j|$ .

Esto cumple el segundo objetivo de eliminar los coeficientes de los rezagos de orden superior, pero es más restrictivo que la única restricción de preferir un modelo de rezago menor. Y, como señalan otros, se trata de una restricción pesada que puede ser muy difícil de justificar.

Después de haber prescindido de las advertencias, el artículo presenta los resultados del método en datos de series temporales reales y simuladas, y detalla los algoritmos para encontrar los coeficientes. En la conclusión se menciona un paquete de R, pero el artículo es bastante reciente y una búsqueda en CRAN de "ordered LASSO" no da resultados, por lo que sospecho que el paquete está todavía en desarrollo.

El documento también ofrece un enfoque generalizado en el que dos parámetros de regularización "fomentan la casi monotonicidad". (Ver p. 6.) En otras palabras, uno debería ser capaz de ajustar los parámetros para permitir un ordenamiento relajado. Lamentablemente, no se proporcionan ni ejemplos ni comparaciones del método relajado. Sin embargo, los autores escriben que la aplicación de este cambio es una simple cuestión de sustituir un algoritmo por otro, por lo que uno espera que forme parte del próximo paquete de R.

2voto

Corey Puntos 83

Se puede hacer una validación cruzada repetidamente desde k = 0 hasta el máximo, y trazar el rendimiento en función de k. Dado que el modelo se está probando con datos que no ha visto antes, no hay garantía de que los modelos complejos vayan a funcionar mejor, y de hecho se debería ver una degradación del rendimiento si el modelo se vuelve demasiado complejo debido al sobreajuste. Personalmente, creo que esto es más seguro y más fácil de justificar que tener un factor de penalización arbitrario, pero su kilometraje puede variar.

Tampoco entiendo muy bien cómo responde a la pregunta el ordenado Lasso. Parece demasiado restrictivo, está forzando completamente el orden de los coeficientes. Mientras que la pregunta original puede terminar para algunos datos que tienen una solución donde $\phi_{lj}$ no es estrictamente decreciente con l.

1voto

user53874 Puntos 11

La penalización LASSO anidada ( pdf ) podría emplearse, pero no existen paquetes de R para ello.

0voto

davidhigh Puntos 648

Sé que lo has escrito como premisa, pero yo no utilizaría el LASSO ordenado sin estar absolutamente seguro de que esto es lo que se necesita, porque los supuestos del LASSO ordenado no son directamente apropiados para la predicción de series temporales. Como contraejemplo, considere el caso en el que tiene un tiempo de retraso de, digamos, diez pasos de tiempo entre la medición y el objetivo. Evidentemente, las restricciones del LASSO ordenado no pueden manejar tales efectos sin atribuir un sinsentido a los nueve primeros parámetros.

En cambio, yo prefiero ceñirme al LASSO normal e incluir todo observación anterior -- particularmente porque usted escribió que su espacio de modelo es pequeño, y las rutinas de optimización de ascenso de coordenadas para el LASSO (como se describe aquí ) funcionan eficazmente también para grandes conjuntos de datos. A continuación, calcule el camino para el parámetro de fuerza de regularización $\lambda$ y mirar qué parámetros se incluyen a medida que se pasa de grandes $\lambda$ a $\lambda=0$ . Especialmente los incluidos antes son los importantes.

Por último, hay que elegir un criterio adecuado y optimizar el parámetro $\lambda$ utilizando la validación cruzada, la minimización unidimensional estándar o lo que sea. El criterio puede ser, por ejemplo, algo así como "error de predicción + número de variables incluidas" (similar al criterio AIC).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X