Consideremos un modelo muy sencillo: $y = \beta x + e$ con una penalización L1 en $\hat{\beta}$ y una función de pérdida por mínimos cuadrados sobre $\hat{e}$ . Podemos expandir la expresión a minimizar como
$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$
Tenga en cuenta que este es un ejemplo univariante, con $\beta$ y $x$ siendo escalares, para mostrar cómo LASSO puede enviar un coeficiente a cero. Esto se puede generalizar al caso multivariante.
Supongamos que la solución por mínimos cuadrados es alguna $\hat{\beta} > 0$ lo que equivale a suponer que $y^Tx > 0$ y ver qué pasa cuando añadimos la penalización de L1. Con $\hat{\beta}>0$ , $|\hat{\beta}| = \hat{\beta}$ por lo que el término de penalización es igual a $2\lambda\beta$ . La derivada de la función objetivo con respecto a $\hat{\beta}$ es:
$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$
que evidentemente tiene solución $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$ .
Obviamente, al aumentar $\lambda$ podemos conducir $\hat{\beta}$ a cero (a $\lambda = y^Tx$ ). Sin embargo, una vez $\hat{\beta} = 0$ , aumentando $\lambda$ no lo hará en negativo, porque, escribiendo en términos generales, el instante $\hat{\beta}$ se vuelve negativa, la derivada de la función objetivo cambia a:
$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$
donde el giro en el signo de $\lambda$ se debe a la naturaleza del valor absoluto del término de penalización; cuando $\beta$ se convierte en negativo, el término de penalización pasa a ser igual a $-2\lambda\beta$ y tomando la derivada respecto a $\beta$ resultados en $-2\lambda$ . Esto lleva a la solución $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ lo cual es obviamente inconsistente con $\hat{\beta} < 0$ (dado que la solución de mínimos cuadrados $> 0$ , lo que implica $y^Tx > 0$ y $\lambda > 0$ ). Hay un aumento en la penalización L1 Y un aumento en el término de error al cuadrado (ya que nos estamos alejando de la solución de mínimos cuadrados) cuando nos movemos $\hat{\beta}$ de $0$ a $ < 0$ Así que no lo hacemos, nos quedamos en $\hat{\beta}=0$ .
Debería ser intuitivamente claro que la misma lógica se aplica, con los cambios de signo apropiados, para una solución de mínimos cuadrados con $\hat{\beta} < 0$ .
Con la penalización de mínimos cuadrados $\lambda\hat{\beta}^2$ Sin embargo, la derivada se convierte en
$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$
que evidentemente tiene solución $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ . Evidentemente, no hay aumento de $\lambda$ lo llevará a cero. Por lo tanto, la penalización L2 no puede actuar como una herramienta de selección de variables sin un poco de ad-hockery como "establecer la estimación del parámetro igual a cero si es menor que $\epsilon$ ".
Obviamente, las cosas pueden cambiar cuando se pasa a modelos multivariantes, por ejemplo, el desplazamiento de la estimación de un parámetro puede obligar a otro a cambiar de signo, pero el principio general es el mismo: la función de penalización L2 no puede llevarnos hasta el cero, porque, escribiendo de forma muy heurística, en realidad se añade al "denominador" de la expresión para $\hat{\beta}$ pero la función de penalización L1 sí puede, porque en efecto se suma al "numerador".
0 votos
Todas las respuestas siguientes son buenas explicaciones. Pero he publicado un artículo con una representación visual. El siguiente es el enlace medium.com/@vamsi149/
0 votos
Recientemente creé una entrada en el blog en la que comparaba el lazo y la cresta utilizando un marco de datos de juguete de ataques de tiburones. Me ayudó a entender el comportamiento de estos algoritmos, especialmente cuando hay variables correlacionadas en los datos. Además de las respuestas perspicaces que aparecen a continuación, echa un vistazo a ese post para tener una perspectiva diferente: scienceloft.com/technical/