¿Por qué el Lazo permite la selección de variables?

Question

¿Por qué el Lazo permite la selección de variables?

Preguntado el 4 de Noviembre, 2013: Cuando se hizo la pregunta
1931 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

He estado leyendo Elementos de aprendizaje estadístico y me gustaría saber por qué el Lasso proporciona selección de variables y la regresión de cresta no.

Ambos métodos minimizan la suma de cuadrados residual y tienen una restricción sobre los posibles valores de los parámetros $\beta$ . Para el Lasso, la restricción es $||\beta||_1 \le t$ mientras que para la cresta es $||\beta||_2 \le t$ para algunos $t$ .

He visto la imagen del diamante frente a la elipse en el libro y tengo cierta intuición de por qué el Lazo puede llegar a las esquinas de la región restringida, lo que implica que uno de los coeficientes se pone a cero. Sin embargo, mi intuición es bastante débil, y no estoy convencido. Debería ser fácil de ver, pero no sé por qué es así.

Así que supongo que estoy buscando una justificación matemática, o una explicación intuitiva de por qué los contornos de la suma de cuadrados residual es probable que golpear las esquinas de la $||\beta||_1$ región restringida (mientras que esta situación es poco probable si la restricción es $||\beta||_2$ ).

Preguntado el 4 de Noviembre, 2013 por Michael Prokop

0 votos

Todas las respuestas siguientes son buenas explicaciones. Pero he publicado un artículo con una representación visual. El siguiente es el enlace medium.com/@vamsi149/

Comentado el 31 de Agosto, 2018 por Ebonest

0 votos

Recientemente creé una entrada en el blog en la que comparaba el lazo y la cresta utilizando un marco de datos de juguete de ataques de tiburones. Me ayudó a entender el comportamiento de estos algoritmos, especialmente cuando hay variables correlacionadas en los datos. Además de las respuestas perspicaces que aparecen a continuación, echa un vistazo a ese post para tener una perspectiva diferente: scienceloft.com/technical/

Comentado el 22 de Julio, 2020 por Atakan

Answer 1

4 Respuestas

Answer 2

113voto

bheklilr Puntos 113

Consideremos un modelo muy sencillo: $y = \beta x + e$ con una penalización L1 en $\hat{\beta}$ y una función de pérdida por mínimos cuadrados sobre $\hat{e}$ . Podemos expandir la expresión a minimizar como

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

Tenga en cuenta que este es un ejemplo univariante, con $\beta$ y $x$ siendo escalares, para mostrar cómo LASSO puede enviar un coeficiente a cero. Esto se puede generalizar al caso multivariante.

Supongamos que la solución por mínimos cuadrados es alguna $\hat{\beta} > 0$ lo que equivale a suponer que $y^Tx > 0$ y ver qué pasa cuando añadimos la penalización de L1. Con $\hat{\beta}>0$ , $|\hat{\beta}| = \hat{\beta}$ por lo que el término de penalización es igual a $2\lambda\beta$ . La derivada de la función objetivo con respecto a $\hat{\beta}$ es:

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

que evidentemente tiene solución $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$ .

Obviamente, al aumentar $\lambda$ podemos conducir $\hat{\beta}$ a cero (a $\lambda = y^Tx$ ). Sin embargo, una vez $\hat{\beta} = 0$ , aumentando $\lambda$ no lo hará en negativo, porque, escribiendo en términos generales, el instante $\hat{\beta}$ se vuelve negativa, la derivada de la función objetivo cambia a:

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

donde el giro en el signo de $\lambda$ se debe a la naturaleza del valor absoluto del término de penalización; cuando $\beta$ se convierte en negativo, el término de penalización pasa a ser igual a $-2\lambda\beta$ y tomando la derivada respecto a $\beta$ resultados en $-2\lambda$ . Esto lleva a la solución $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ lo cual es obviamente inconsistente con $\hat{\beta} < 0$ (dado que la solución de mínimos cuadrados $> 0$ , lo que implica $y^Tx > 0$ y $\lambda > 0$ ). Hay un aumento en la penalización L1 Y un aumento en el término de error al cuadrado (ya que nos estamos alejando de la solución de mínimos cuadrados) cuando nos movemos $\hat{\beta}$ de $0$ a $ < 0$ Así que no lo hacemos, nos quedamos en $\hat{\beta}=0$ .

Debería ser intuitivamente claro que la misma lógica se aplica, con los cambios de signo apropiados, para una solución de mínimos cuadrados con $\hat{\beta} < 0$ .

Con la penalización de mínimos cuadrados $\lambda\hat{\beta}^2$ Sin embargo, la derivada se convierte en

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

que evidentemente tiene solución $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ . Evidentemente, no hay aumento de $\lambda$ lo llevará a cero. Por lo tanto, la penalización L2 no puede actuar como una herramienta de selección de variables sin un poco de ad-hockery como "establecer la estimación del parámetro igual a cero si es menor que $\epsilon$ ".

Obviamente, las cosas pueden cambiar cuando se pasa a modelos multivariantes, por ejemplo, el desplazamiento de la estimación de un parámetro puede obligar a otro a cambiar de signo, pero el principio general es el mismo: la función de penalización L2 no puede llevarnos hasta el cero, porque, escribiendo de forma muy heurística, en realidad se añade al "denominador" de la expresión para $\hat{\beta}$ pero la función de penalización L1 sí puede, porque en efecto se suma al "numerador".

Respondido el 4 de Noviembre, 2013 por bheklilr (113 Puntos )

2 votos

¿Proporciona Lasso también la selección de características en el caso de modelos no lineales, por ejemplo, NN?

Comentado el 20 de Febrero, 2017 por Peter

0 votos

Una pequeña pregunta de seguimiento: ¿Cómo puede $\lambda = y^Tx$ sea si $y^Tx$ es un vector y $\lambda$ es un escalar que podemos variar para encontrar el ajuste?

Comentado el 15 de Junio, 2017 por Jekaterina Kokatjuhha

1 votos

Estaba usando un ejemplo univariado, así que $y^Tx$ es un escalar. Si estás resolviendo un problema multivariante, entonces $\lambda$ se multiplica por un vector de unos con longitud = el tamaño de $\beta$ o la matriz de identidad de tamaño adecuado, dependiendo del problema que se esté resolviendo. Se puede calcular esto observando, por ejemplo, que la norma L2 de $z$ = $z^T\text{I}z$ y haciendo sustituciones en las fórmulas anteriores.

Comentado el 15 de Junio, 2017 por bheklilr

Mostrar 10 comentarios más

Answer 3

24voto

Steve Goykovich Puntos 181

Supongamos que tenemos un conjunto de datos con y = 1 y x = [1/10 1/10] (un punto de datos, dos características). Una solución es elegir una de las características, otra es ponderar ambas características. Es decir, podemos elegir w = [5 5] o w = [10 0].

Nótese que para la norma L1 ambos tienen la misma penalización, pero el peso más repartido tiene una penalización menor para la norma L2.

Respondido el 4 de Noviembre, 2013 por Steve Goykovich (181 Puntos )

3 votos

Esta es la explicación que estaba buscando. Bien explicado.

Comentado el 4 de Septiembre, 2020 por Beefsticks

1 votos

Según este ejemplo, la norma L1 podría ser la misma, pero la norma L0 sería diferente (1 y 2, respectivamente), pero L0 puede seguir utilizándose para la selección de variables. ¿No se aplica esta lógica para L0?

Comentado el 5 de Noviembre, 2020 por Ben C Wang

8 votos

¿Cómo responde esto a la pregunta? Si la norma L1 es la misma para ambas soluciones, la pregunta era por qué elige necesariamente la solución [10, 0] y no [5, 5], a pesar de que ambas tienen la misma norma L1.

Comentado el 13 de Octubre, 2021 por Sia

Answer 4

15voto

Dan Puntos 12178

Creo que ya hay excelentes respuestas, pero sólo quiero añadir una intuición sobre la interpretación geométrica:

"El lazo realiza $L1$ contracción, de modo que hay "esquinas" en la restricción, que en dos dimensiones corresponde a un diamante. Si la suma de los cuadrados "toca" una de estas esquinas, el coeficiente correspondiente al eje se reduce a cero.

Como $p$ aumenta, el diamante multidimensional tiene un número creciente de esquinas, por lo que es muy probable que algunos coeficientes se pongan a cero. Por lo tanto, el lazo realiza la contracción y (efectivamente) la selección de subconjuntos.

A diferencia de la selección de subconjuntos, la cresta realiza un umbral suave: a medida que se varía el parámetro de suavizado, la trayectoria de la muestra de las estimaciones se desplaza continuamente hacia cero."

Fuente: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

El efecto puede visualizarse muy bien, ya que las líneas de color son las trayectorias de los coeficientes de regresión que se reducen hacia cero.

"La regresión Ridge encoge todos los coeficientes de regresión hacia cero; el lazo tiende a dar un conjunto de coeficientes de regresión cero y conduce a una solución dispersa".

Fuente: https://onlinecourses.science.psu.edu/stat857/node/158

Respondido el 9 de Enero, 2017 por Dan (12178 Puntos )

Answer 5

0voto

Atakan Puntos 399

Recientemente he creado un entrada del blog para comparar la cresta y el lazo usando un marco de datos de juguete de ataques de tiburón. Me ayudó a entender el comportamiento de los algoritmos, especialmente cuando hay variables correlacionadas. Eche un vistazo y vea también esto Pregunta SO para explicar la contracción hacia el cero.

Respondido el 22 de Julio, 2020 por Atakan (399 Puntos )

¿Por qué el Lazo permite la selección de variables?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué el Lazo permite la selección de variables?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: