9 votos

Rango de lambda en red elástica de regresión

$\def\l{|\!|}$ Dada la red elástica de regresión

$$\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1$$

¿cómo puede una gama apropiada de $\lambda$ ser elegido para la validación cruzada?

En el $\alpha=1$ de los casos (regresión ridge) la fórmula

$$\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda}$$

puede ser utilizado para dar un equivalente a los grados de libertad de cada lambda (donde $s_j$ son los valores singulares de a $X$), los grados de libertad y puede ser elegido en un ámbito sensible.

En el $\alpha=0$ de los casos (el lazo) sabemos que

$$\lambda > \lambda_{\textrm{max}} = \max_j|\sum_t y_t X_{tj}|$$

el resultado es que todas $b_j$ cero, y $\lambda$ puede ser elegido en un rango $(0, \lambda_\textrm{max})$.

Pero, ¿cómo manejar el caso mixto?

5voto

Andy Jones Puntos 1165

Creo que se debe utilizar un rango de $0$ a

$$\lambda_\text{max}^\prime = \frac{1}{1-\alpha}\lambda_\text{max}$$

Mi razonamiento resulta de extender el lazo caso, y un total de derivación está por debajo. El calificador es que no capta la $\text{dof}$ restricción aportado por el $\ell_2$ regularización. Si yo trabajo como arreglar eso (y decidir si realmente las necesidades de la fijación), voy a volver y editar.


Definir el objetivo

$$f(b) = \frac{1}{2} \|y - Xb\|^2 + \frac{1}{2} \gamma \|b\|^2 + \delta \|b\|_1$$

Este es el objetivo que usted describe, pero con algunos parámetros sustituido para mejorar la claridad.

Convencionalmente, $b=0$ sólo puede ser una solución para el problema de optimización $\min f(b)$ si el gradiente en $b = 0$ es cero. El plazo $\|b\|_1$ no es liso, aunque, por lo que la condición es que el $0$ se encuentra en el subgradiente en $b = 0$.

El subgradiente de $f$ es

$$\partial f = -X^T(y - Xb) + \gamma b + \delta \partial \|b\|_1$$

donde $\partial$ denota el subgradiente con respecto a $b$. En $b=0$, esto se convierte en

$$\partial f|_{b=0} = -X^Ty + \delta[-1, 1]^d$$

donde $d$ es la dimensión de la $b$ $[-1,1]^d$ $d$- dimensiones del cubo. Así que para el problema de optimización para tener una solución de $b = 0$, debe ser que

$$(X^Ty)_i \in \delta [-1, 1]$$

para cada componente $i$. Esto es equivalente a

$$\delta > \max_i \left|\sum_j y_j X_{ij} \right|$$

cual es la definición que dio de $\lambda_\text{max}$. Si $\delta = (1-\alpha)\lambda$ ahora es cambiado, la fórmula de la parte superior del poste se cae.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X