Perdonen mi falta de habilidad para pintar, trataré de darles la siguiente intuición.
Dejemos que $f(\beta)$ sea la función objetivo (por ejemplo, el MSE en caso de regresión). Imaginemos el gráfico de contorno de esta función en rojo (por supuesto lo pintamos en el espacio de $\beta$ Aquí, para simplificar. $\beta_1$ et $\beta_2$ ).
Hay un mínimo de esta función, en el centro de los círculos rojos. Y este mínimo nos da la solución no penalizada.
Ahora añadimos un objetivo diferente $g(\beta)$ cuyo gráfico de contorno se da en azul. Regularizador LASSO o regularizador de regresión de cresta. Para LASSO $g(\beta) = \lambda (|\beta_1| + |\beta_2|)$ para la regresión de cresta $g(\beta) = \lambda (\beta_1^2 + \beta_2^2)$ ( $\lambda$ es un parámetro de penalización). Los gráficos de contorno muestran el área en la que la función tiene los valores fijos. Por lo tanto, cuanto más grande $\lambda$ - cuanto más rápido $g(x)$ crecimiento, y cuanto más "estrecho" sea el gráfico de contorno.
Ahora tenemos que encontrar el mínimo de la suma de estos dos objetivos: $f(\beta) + g(\beta)$ . Y esto se consigue cuando dos curvas de nivel se encuentran.
Cuanto mayor es la penalización, más estrechos son los contornos azules que obtenemos, y entonces los gráficos se encuentran en un punto más cercano a cero. Y viceversa: cuanto menor es la penalización, los contornos se amplían y la intersección de los gráficos azul y rojo se acerca al centro del círculo rojo (solución no penalizada).
Y ahora sigue una cosa interesante que me explica en gran medida la diferencia entre la regresión de cresta y LASSO: en el caso de LASSO dos gráficos de contorno probablemente se encontrarán donde está la esquina del regularizador ( $\beta_1 = 0$ o $\beta_2 = 0$ ). En el caso de la regresión de cresta, casi nunca es así.
Por eso LASSO nos da una solución dispersa, haciendo que algunos de los parámetros sean exactamente iguales $0$ .
Espero que eso explique alguna intuición sobre cómo funciona la regresión penalizada en el espacio de los parámetros.