125 votos

¿Por qué el Lazo permite la selección de variables?

He estado leyendo Elementos de aprendizaje estadístico y me gustaría saber por qué el Lasso proporciona selección de variables y la regresión de cresta no.

Ambos métodos minimizan la suma de cuadrados residual y tienen una restricción sobre los posibles valores de los parámetros $\beta$ . Para el Lasso, la restricción es $||\beta||_1 \le t$ mientras que para la cresta es $||\beta||_2 \le t$ para algunos $t$ .

He visto la imagen del diamante frente a la elipse en el libro y tengo cierta intuición de por qué el Lazo puede llegar a las esquinas de la región restringida, lo que implica que uno de los coeficientes se pone a cero. Sin embargo, mi intuición es bastante débil, y no estoy convencido. Debería ser fácil de ver, pero no sé por qué es así.

Así que supongo que estoy buscando una justificación matemática, o una explicación intuitiva de por qué los contornos de la suma de cuadrados residual es probable que golpear las esquinas de la $||\beta||_1$ región restringida (mientras que esta situación es poco probable si la restricción es $||\beta||_2$ ).

0 votos

Todas las respuestas siguientes son buenas explicaciones. Pero he publicado un artículo con una representación visual. El siguiente es el enlace medium.com/@vamsi149/

0 votos

Recientemente creé una entrada en el blog en la que comparaba el lazo y la cresta utilizando un marco de datos de juguete de ataques de tiburones. Me ayudó a entender el comportamiento de estos algoritmos, especialmente cuando hay variables correlacionadas en los datos. Además de las respuestas perspicaces que aparecen a continuación, echa un vistazo a ese post para tener una perspectiva diferente: scienceloft.com/technical/

113voto

bheklilr Puntos 113

Consideremos un modelo muy sencillo: $y = \beta x + e$ con una penalización L1 en $\hat{\beta}$ y una función de pérdida por mínimos cuadrados sobre $\hat{e}$ . Podemos expandir la expresión a minimizar como

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

Tenga en cuenta que este es un ejemplo univariante, con $\beta$ y $x$ siendo escalares, para mostrar cómo LASSO puede enviar un coeficiente a cero. Esto se puede generalizar al caso multivariante.

Supongamos que la solución por mínimos cuadrados es alguna $\hat{\beta} > 0$ lo que equivale a suponer que $y^Tx > 0$ y ver qué pasa cuando añadimos la penalización de L1. Con $\hat{\beta}>0$ , $|\hat{\beta}| = \hat{\beta}$ por lo que el término de penalización es igual a $2\lambda\beta$ . La derivada de la función objetivo con respecto a $\hat{\beta}$ es:

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

que evidentemente tiene solución $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$ .

Obviamente, al aumentar $\lambda$ podemos conducir $\hat{\beta}$ a cero (a $\lambda = y^Tx$ ). Sin embargo, una vez $\hat{\beta} = 0$ , aumentando $\lambda$ no lo hará en negativo, porque, escribiendo en términos generales, el instante $\hat{\beta}$ se vuelve negativa, la derivada de la función objetivo cambia a:

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

donde el giro en el signo de $\lambda$ se debe a la naturaleza del valor absoluto del término de penalización; cuando $\beta$ se convierte en negativo, el término de penalización pasa a ser igual a $-2\lambda\beta$ y tomando la derivada respecto a $\beta$ resultados en $-2\lambda$ . Esto lleva a la solución $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ lo cual es obviamente inconsistente con $\hat{\beta} < 0$ (dado que la solución de mínimos cuadrados $> 0$ , lo que implica $y^Tx > 0$ y $\lambda > 0$ ). Hay un aumento en la penalización L1 Y un aumento en el término de error al cuadrado (ya que nos estamos alejando de la solución de mínimos cuadrados) cuando nos movemos $\hat{\beta}$ de $0$ a $ < 0$ Así que no lo hacemos, nos quedamos en $\hat{\beta}=0$ .

Debería ser intuitivamente claro que la misma lógica se aplica, con los cambios de signo apropiados, para una solución de mínimos cuadrados con $\hat{\beta} < 0$ .

Con la penalización de mínimos cuadrados $\lambda\hat{\beta}^2$ Sin embargo, la derivada se convierte en

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

que evidentemente tiene solución $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ . Evidentemente, no hay aumento de $\lambda$ lo llevará a cero. Por lo tanto, la penalización L2 no puede actuar como una herramienta de selección de variables sin un poco de ad-hockery como "establecer la estimación del parámetro igual a cero si es menor que $\epsilon$ ".

Obviamente, las cosas pueden cambiar cuando se pasa a modelos multivariantes, por ejemplo, el desplazamiento de la estimación de un parámetro puede obligar a otro a cambiar de signo, pero el principio general es el mismo: la función de penalización L2 no puede llevarnos hasta el cero, porque, escribiendo de forma muy heurística, en realidad se añade al "denominador" de la expresión para $\hat{\beta}$ pero la función de penalización L1 sí puede, porque en efecto se suma al "numerador".

2 votos

¿Proporciona Lasso también la selección de características en el caso de modelos no lineales, por ejemplo, NN?

0 votos

Una pequeña pregunta de seguimiento: ¿Cómo puede $\lambda = y^Tx$ sea si $y^Tx$ es un vector y $\lambda$ es un escalar que podemos variar para encontrar el ajuste?

1 votos

Estaba usando un ejemplo univariado, así que $y^Tx$ es un escalar. Si estás resolviendo un problema multivariante, entonces $\lambda$ se multiplica por un vector de unos con longitud = el tamaño de $\beta$ o la matriz de identidad de tamaño adecuado, dependiendo del problema que se esté resolviendo. Se puede calcular esto observando, por ejemplo, que la norma L2 de $z$ = $z^T\text{I}z$ y haciendo sustituciones en las fórmulas anteriores.

24voto

Steve Goykovich Puntos 181

Supongamos que tenemos un conjunto de datos con y = 1 y x = [1/10 1/10] (un punto de datos, dos características). Una solución es elegir una de las características, otra es ponderar ambas características. Es decir, podemos elegir w = [5 5] o w = [10 0].

Nótese que para la norma L1 ambos tienen la misma penalización, pero el peso más repartido tiene una penalización menor para la norma L2.

3 votos

Esta es la explicación que estaba buscando. Bien explicado.

1 votos

Según este ejemplo, la norma L1 podría ser la misma, pero la norma L0 sería diferente (1 y 2, respectivamente), pero L0 puede seguir utilizándose para la selección de variables. ¿No se aplica esta lógica para L0?

8 votos

¿Cómo responde esto a la pregunta? Si la norma L1 es la misma para ambas soluciones, la pregunta era por qué elige necesariamente la solución [10, 0] y no [5, 5], a pesar de que ambas tienen la misma norma L1.

15voto

Dan Puntos 12178

Creo que ya hay excelentes respuestas, pero sólo quiero añadir una intuición sobre la interpretación geométrica:

"El lazo realiza $L1$ contracción, de modo que hay "esquinas" en la restricción, que en dos dimensiones corresponde a un diamante. Si la suma de los cuadrados "toca" una de estas esquinas, el coeficiente correspondiente al eje se reduce a cero.

Como $p$ aumenta, el diamante multidimensional tiene un número creciente de esquinas, por lo que es muy probable que algunos coeficientes se pongan a cero. Por lo tanto, el lazo realiza la contracción y (efectivamente) la selección de subconjuntos.

A diferencia de la selección de subconjuntos, la cresta realiza un umbral suave: a medida que se varía el parámetro de suavizado, la trayectoria de la muestra de las estimaciones se desplaza continuamente hacia cero."

Fuente: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

El efecto puede visualizarse muy bien, ya que las líneas de color son las trayectorias de los coeficientes de regresión que se reducen hacia cero.

enter image description here

"La regresión Ridge encoge todos los coeficientes de regresión hacia cero; el lazo tiende a dar un conjunto de coeficientes de regresión cero y conduce a una solución dispersa".

enter image description here

Fuente: https://onlinecourses.science.psu.edu/stat857/node/158

0voto

Atakan Puntos 399

Recientemente he creado un entrada del blog para comparar la cresta y el lazo usando un marco de datos de juguete de ataques de tiburón. Me ayudó a entender el comportamiento de los algoritmos, especialmente cuando hay variables correlacionadas. Eche un vistazo y vea también esto Pregunta SO para explicar la contracción hacia el cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X