En ambos gráficos, cada línea de color representa el valor que toma un coeficiente diferente en su modelo. Lambda es el peso dado al término de regularización (la norma L1), de modo que a medida que lambda se aproxima a cero, la función de pérdida de su modelo se aproxima a la función de pérdida OLS. He aquí una forma en que podría especificar la función de pérdida LASSO para concretar esto:
$$\beta_{lasso} = \text{argmin } [ RSS(\beta) + \lambda *\text{L1-Norm}(\beta) ]$$
Por lo tanto, cuando lambda es muy pequeño, la solución LASSO debe estar muy cerca de la solución OLS, y todos sus coeficientes están en el modelo. A medida que lambda crece, el término de regularización tiene mayor efecto y verá menos variables en su modelo (porque cada vez más coeficientes tendrán valor cero).
Como ya he mencionado, el Norma L1 es el término de regularización para LASSO. Tal vez una mejor manera de verlo es que el eje x es la valor máximo admisible que puede tomar la norma L1 . Así que cuando se tiene una norma L1 pequeña, se tiene mucha regularización. Por lo tanto, una norma L1 de cero da un modelo vacío, y a medida que aumente la norma L1, las variables "entrarán" en el modelo cuando sus coeficientes tomen valores distintos de cero.
El gráfico de la izquierda y el de la derecha muestran básicamente lo mismo, pero a escalas diferentes.