28 votos

Interpretación geométrica de la regresión lineal penalizada

Sé que la regresión lineal puede pensarse como "la línea que está verticalmente más cerca de todos los puntos" :

enter image description here

Pero hay otra forma de verlo, visualizando el espacio de la columna, como "la proyección sobre el espacio abarcado por las columnas de la matriz de coeficientes" :

enter image description here

Mi pregunta es: en estas dos interpretaciones, ¿qué sucede cuando utilizamos la regresión lineal penalizada, como regresión de cresta y LASSO ? ¿Qué ocurre con la línea de la primera interpretación? ¿Y qué ocurre con la proyección en la segunda interpretación?

ACTUALIZACIÓN: @JohnSmith en los comentarios trajo a colación el hecho de que la penalización se produce en el espacio de los coeficientes. ¿Hay una interpretación en este espacio también?

30voto

Dmitry Laptev Puntos 1846

Perdonen mi falta de habilidad para pintar, trataré de darles la siguiente intuición.

Dejemos que $f(\beta)$ sea la función objetivo (por ejemplo, el MSE en caso de regresión). Imaginemos el gráfico de contorno de esta función en rojo (por supuesto lo pintamos en el espacio de $\beta$ Aquí, para simplificar. $\beta_1$ et $\beta_2$ ).

Hay un mínimo de esta función, en el centro de los círculos rojos. Y este mínimo nos da la solución no penalizada.

Ahora añadimos un objetivo diferente $g(\beta)$ cuyo gráfico de contorno se da en azul. Regularizador LASSO o regularizador de regresión de cresta. Para LASSO $g(\beta) = \lambda (|\beta_1| + |\beta_2|)$ para la regresión de cresta $g(\beta) = \lambda (\beta_1^2 + \beta_2^2)$ ( $\lambda$ es un parámetro de penalización). Los gráficos de contorno muestran el área en la que la función tiene los valores fijos. Por lo tanto, cuanto más grande $\lambda$ - cuanto más rápido $g(x)$ crecimiento, y cuanto más "estrecho" sea el gráfico de contorno.

Ahora tenemos que encontrar el mínimo de la suma de estos dos objetivos: $f(\beta) + g(\beta)$ . Y esto se consigue cuando dos curvas de nivel se encuentran.

LASSO and Ridge regression

Cuanto mayor es la penalización, más estrechos son los contornos azules que obtenemos, y entonces los gráficos se encuentran en un punto más cercano a cero. Y viceversa: cuanto menor es la penalización, los contornos se amplían y la intersección de los gráficos azul y rojo se acerca al centro del círculo rojo (solución no penalizada).

Y ahora sigue una cosa interesante que me explica en gran medida la diferencia entre la regresión de cresta y LASSO: en el caso de LASSO dos gráficos de contorno probablemente se encontrarán donde está la esquina del regularizador ( $\beta_1 = 0$ o $\beta_2 = 0$ ). En el caso de la regresión de cresta, casi nunca es así.

Por eso LASSO nos da una solución dispersa, haciendo que algunos de los parámetros sean exactamente iguales $0$ .

Espero que eso explique alguna intuición sobre cómo funciona la regresión penalizada en el espacio de los parámetros.

3voto

JohnRos Puntos 3211

La intuición que tengo es la siguiente: En el caso de los mínimos cuadrados, la matriz del sombrero es una proyección ortogonal y, por tanto, idempotente. En el caso penalizado, la matriz sombrero ya no es idempotente. En realidad, aplicándola infinitas veces, los coeficientes se reducen al origen. Por otro lado, los coeficientes siguen estando en el ámbito de los predictores, por lo que sigue siendo una proyección, aunque no ortogonal. La magnitud del factor de penalización y el tipo de norma controlan la distancia y la dirección de la contracción hacia el origen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X