12 votos

¿Puede $\|\beta^*\|_2$ aumenta cuando aumenta el $\lambda$ en Lasso?

Si $\beta^*=\mathrm{arg\,min}_{\beta} \|y-X\beta\|^2_2+\lambda\|\beta\|_1$, $\|\beta^*\|_2$ de aumento al $\lambda$ aumenta?

Creo que esto es posible. A pesar de $\|\beta^*\|_1$ no aumenta al $\lambda$ aumenta (mi prueba), $\|\beta^*\|_2$ puede aumentar. La siguiente figura muestra una posibilidad. Al $\lambda$ aumenta, si $\beta^*$ viajes (lineal) de$P$$Q$, $\|\beta^*\|_2$ aumenta mientras que $\|\beta^*\|_1$ disminuye. Pero no sé cómo poner un ejemplo concreto (es decir, para la construcción de $X$$y$), de modo que el perfil de $\beta^*$ demostrar este comportamiento. Alguna idea? Gracias.

enter image description here

10voto

roboknight Puntos 1

La respuesta es sí, y usted tiene una gráfica de la prueba en $\ell_2$ a la derecha allí.

Buscar la definición de la equivalencia de vectores normas. Usted encontrará que $$ \|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2, $$ donde $n$ es la dimensión del vector de $x$. Por lo tanto, existe cierto margen de maniobra para la $\ell_2$ norma, en comparación con el $\ell_1$ norma.

De hecho, el problema que se quiere resolver puede ser enunciada como:

Encontrar $d$ tal que $$ \|x + d\|_2 > \|x\|_2 $$ mientras que al mismo tiempo $$ \|x + d\|_1 < \|x\|_1. $$

Plaza de la primera desigualdad, expandir y ver que $$ 2\sum_i x_id_i > -\sum_i d_i^2 $$ y que, por el supuesto de que $x_i\geq0$$x_i+d_i\geq0$, se obtiene a partir de la segunda desigualdad que debemos tener $$ \sum_i d_i < 0. $$ Cualquier $d$ que cumple con estas restricciones, se aumento el $\ell_2$ norma, mientras que la disminución de la $\ell_1$ norma.

En tu ejemplo, $d\approx[-0.4, 0.3]^T$, $x:=P\approx[0.5, 0.6]^T$, y $$ \sum_i d_i\aprox-0.1<0, $$ y $$ 2\sum_i P_id_i\aprox-0.04 > -0.25 \aprox -\sum_i d_i^2. $$

4voto

heathrow Puntos 25

Gracias por @TommyL la respuesta, pero su respuesta no es directa en la construcción de $X$$y$. Yo de alguna manera de "resolver" esto a mí mismo. En primer lugar, al $\lambda$ aumenta, $\|\beta^*\|_2$ no aumentará cuando cada una de las $\beta^*_i$ disminuye monótonamente. Esto sucede cuando $X$ es ortonormales, en el que hemos

$$ \beta^*_i=\mathrm{signo}(\beta_i^{\mathrm{LS}})(\beta_i^{\mathrm{LS}}-\lambda)_+ $$

Geometrically, in this situation $\beta^*$ moves perpendicularly to the contour of the $\ell_1$ norm, so $\|\beta^*\|_2$ no puede aumentar.

En realidad, Hastie et al. mencionados en el documento de Avance stagewise de regresión y el monocolor lazo, una condición necesaria y suficiente de la monotonía de las rutas de perfil:

enter image description here

En la Sección 6 de la nota construyeron una artificial conjunto de datos basados en tramos lineales de funciones de base que viola la condición anterior, mostrando la no monotonía. Pero si tenemos suerte, también podemos crear un azar del conjunto de datos que demuestran el comportamiento similar, pero de una manera más sencilla. Aquí está mi código R:

library(glmnet)
set.seed(0)
N <- 10
p <- 15
x1 <- rnorm(N)
X <- mat.or.vec(N, p)
X[, 1] <- x1
for (i in 2:p) {X[, i] <- x1 + rnorm(N, sd=0.2)}
beta <- rnorm(p, sd=10)
y <- X %*% beta + rnorm(N, sd=0.01)
model <- glmnet(X, y, family="gaussian", alpha=1, intercept=FALSE)

Yo deliberadamente deje $X$'s columnas altamente correlacionados (lejos de la ortonormales caso), y el verdadero $\beta$ tienen grandes positivos y negativos de las entradas. Aquí es $\beta^*$'s de perfil (no es de extrañar que sólo el 5 variables son activados):

enter image description here

y la relación entre el$\lambda$$\|\beta^*\|_2$:

enter image description here

Así que podemos ver que para un intervalo de $\lambda$, $\|\beta^*\|_2$ aumenta a medida que $\lambda$ aumenta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X