He comenzado a aprender sobre LASSO a partir de esta revisión ("Optimización de mínimos cuadrados con regularización de norma L1" por Mark Schmitd).
El problema de optimización es:
$$\min_{\beta } \left\{ \frac{1}{N} \sum_{i=1}^N (y_i - x_i^T \beta)^2 \right\} \text{ sujeto a } \sum_{j=1}^p |\beta_j| \leq t$$
donde $t$ controla la cantidad de regularización. Existe otra forma de escribir este problema utilizando multiplicadores de Lagrange:
$$\min_{ \beta \in \mathbb{R}^p } \left\{ \frac{1}{N} \left\| y - X \beta \right\|_2^2 + \lambda \| \beta \|_1 \right\}$$
Pregunta 1: ¿Cómo controla $t$ la cantidad de regularización? Si $\lambda$ es grande, ¿más coeficientes serán forzados a cero? En tal caso, ¿cuántos coeficientes serían cero, dado que LASSO no asume un conjunto activo particular?
Usé Lasso en Matlab y, basado en la documentación, uno debería elegir $\lambda$ para minimizar el error cuadrático medio. Supongamos que $\lambda = 0.8$, ¿cómo y dónde se utiliza este valor? ¿Implica un $\lambda$ grande mayor esparsidad? ¿Cuál es el significado de este término?
Pregunta 2: ¿Se encuentra $\lambda$ en un rango, digamos de 0 a 1?