He comenzado a aprender sobre LASSO a partir de esta revisión ("Optimización de mínimos cuadrados con regularización de norma L1" por Mark Schmitd).
El problema de optimización es:
minβ{1NN∑i=1(yi−xTiβ)2} sujeto a p∑j=1|βj|≤t
donde t controla la cantidad de regularización. Existe otra forma de escribir este problema utilizando multiplicadores de Lagrange:
\min_{ \beta \in \mathbb{R}^p } \left\{ \frac{1}{N} \left\| y - X \beta \right\|_2^2 + \lambda \| \beta \|_1 \right\}
Pregunta 1: ¿Cómo controla t la cantidad de regularización? Si \lambda es grande, ¿más coeficientes serán forzados a cero? En tal caso, ¿cuántos coeficientes serían cero, dado que LASSO no asume un conjunto activo particular?
Usé Lasso en Matlab y, basado en la documentación, uno debería elegir \lambda para minimizar el error cuadrático medio. Supongamos que \lambda = 0.8, ¿cómo y dónde se utiliza este valor? ¿Implica un \lambda grande mayor esparsidad? ¿Cuál es el significado de este término?
Pregunta 2: ¿Se encuentra \lambda en un rango, digamos de 0 a 1?