27 votos

Pena de puente frente a la regularización de la red elástica

Algunas funciones de penalización y aproximaciones están bien estudiadas, como el LASSO ( $L_1$ ) y la cresta ( $L_2$ ) y cómo se comparan en la regresión.

He estado leyendo sobre la pena de Puente, que es la $\sum \|\beta_{j}\|^{\gamma}$ penalización generalizada. Compárese con el LASSO, que tiene $\gamma = 1$ y el Ridge, con $\gamma = 2$ , lo que los convierte en casos especiales.

Wenjiang [ 1 ] compararon la penalización del Puente cuando $\gamma \geq 1$ a la LASSO, pero no he podido encontrar una comparación con la regularización Elastic Net, una combinación de la LASSO y las penalizaciones Ridge, dada como $\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}$ .

Se trata de una cuestión interesante porque la Red Elástica y este Puente específico tienen formas de restricción similares. Compara estos círculos unitarios utilizando las diferentes métricas ( $p$ es la potencia del Distancia de Minkowski ):

Unit circles in for different powers of the Minkowski distance

$p = 1$ corresponde al LASSO, $p = 2$ a la cresta, y $p = 1.4$ a un posible Puente. La red elástica se generó con la misma ponderación en $L_1$ y $L_2$ sanciones. Estas cifras son útiles para identificar la dispersión, por ejemplo (de la que Bridge carece claramente, mientras que Elastic Net la preserva de LASSO).

Entonces, ¿cómo es que el Puente con $1<\gamma <2$ ¿se compara con Elastic Net en cuanto a la regularización (aparte de la dispersión)? Tengo especial interés en el aprendizaje supervisado, así que quizás sea pertinente una discusión sobre la selección/ponderación de características. La argumentación geométrica también es bienvenida.

Y lo que es más importante, ¿es la Red Elástica siempre más deseable en este caso?


<a href="http://www.aliquote.org/articles/slides/mva_clinres/biblio/fu98.pdf" rel="noreferrer">[1] Fu, W. J. (1998). Penalized regressions: the bridge versus the lasso. Journal of computational and graphical statistics, 7(3), 397-416.</a>


EDIT: Hay esta pregunta ¿Cómo decidir qué medida de penalización utilizar? ¿Alguna pauta general o regla general del libro de texto? que menciona superficialmente LASSO, Ridge, Bridge y Elastic Net, pero no hay intentos de compararlos.

8 votos

Sólo tangencialmente relacionado, pero si el $L_1$ es la estimación MAP de una regresión bayesiana con priores independientes de Laplace sobre los coeficientes, y la $L_2$ es la misma para las priorizaciones gaussianas, me pregunto si la penalización de Bridge es equivalente a una priorización Subbotin... stats.stackexchange.com/questions/201038/

0 votos

@RichardHardy No es necesario escribir lazo en mayúsculas, ver mi comentario aquí .

4 votos

Tenga en cuenta que la regresión de Bridge permite $\gamma<1$ que da una regresión no convexa. Esto es bueno en particular cuando se trata de seleccionar grupos de covariables, especialmente a partir de datos dispersos. O, en general, podría tener grupos predefinidos de covariables, que $L^2$ regularizar para que ningún grupo en particular sea grande, y luego $L^1$ regularizar los coeficientes de un solo grupo para lograr la dispersión. Es decir, si se escribe $\beta=(a_1,\cdots,a_k)$ , donde $a_i=(\beta_{i_1},\beta_{i_2,},\cdots,\beta_{i_r})$ entonces podrías hacer $\lambda_1 \|\beta\|^{\gamma_i}+\lambda_2\sum_i \|a_i\|^{\nu_i}$ .

24voto

throwaway Puntos 18

La diferencia entre la regresión puente y la red elástica es una cuestión fascinante, dado que sus penalizaciones son similares. He aquí un posible enfoque. Supongamos que resolvemos el problema de la regresión puente. A continuación, podemos preguntar en qué se diferenciaría la solución de la red elástica. Observar los gradientes de las dos funciones de pérdida puede decirnos algo al respecto.

Regresión del puente

Diga $X$ es una matriz que contiene los valores de la variable independiente ( $n$ puntos x $d$ dimensiones), $y$ es un vector que contiene los valores de la variable dependiente, y $w$ es el vector de pesos.

La función de pérdida penaliza el $\ell_q$ norma de los pesos, con magnitud $\lambda_b$ :

$$ L_b(w) = \| y - Xw\|_2^2 + \lambda_b \|w\|_q^q $$

El gradiente de la función de pérdida es:

$$ \nabla_w L_b(w) = -2 X^T (y - Xw) + \lambda_b q |w|^{\circ(q-1)} \text{sgn}(w) $$

$v^{\circ c}$ denota la potencia de Hadamard (es decir, de los elementos), que da un vector cuyo $i$ Este elemento es $v_i^c$ . $\text{sgn}(w)$ es la función de signo (aplicada a cada elemento de $w$ ). El gradiente puede ser indefinido en cero para algunos valores de $q$ .

Red elástica

La función de pérdida es:

$$ L_e(w) = \|y - Xw\|_2^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 $$

Esto penaliza al $\ell_1$ norma de los pesos con magnitud $\lambda_1$ y el $\ell_2$ norma con magnitud $\lambda_2$ . El artículo sobre la red elástica llama a la minimización de esta función de pérdida la "red elástica ingenua" porque encoge doblemente los pesos. Describen un procedimiento mejorado en el que los pesos se reescalan posteriormente para compensar el doble encogimiento, pero yo sólo voy a analizar la versión ingenua. Es una advertencia a tener en cuenta.

El gradiente de la función de pérdida es:

$$ \nabla_w L_e(w) = -2 X^T (y - Xw) + \lambda_1 \text{sgn}(w) + 2 \lambda_2 w $$

El gradiente es indefinido en cero cuando $\lambda_1 > 0$ porque el valor absoluto en el $\ell_1$ la pena no es diferenciable allí.

Acérquese a

Digamos que seleccionamos los pesos $w^*$ que resuelven el problema de la regresión del puente. Esto significa que el gradiente de regresión del puente es cero en este punto:

$$ \nabla_w L_b(w^*) = -2 X^T (y - Xw^*) + \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) = \vec{0} $$

Por lo tanto:

$$ 2 X^T (y - Xw^*) = \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) $$

Podemos sustituir esto en el gradiente de la red elástica, para obtener una expresión para el gradiente de la red elástica en $w^*$ . Afortunadamente, ya no depende directamente de los datos:

$$ \nabla_w L_e(w^*) = \lambda_1 \text{sgn}(w^*) + 2 \lambda_2 w^* -\lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) $$

Observando el gradiente de la red elástica en $w^*$ nos dice: Dado que la regresión puente ha convergido a los pesos $w^*$ ¿cómo querría la red elástica cambiar estos pesos?

Nos da la dirección local y la magnitud del cambio deseado, porque el gradiente apunta en la dirección de mayor ascenso y la función de pérdida disminuirá a medida que nos movemos en la dirección opuesta al gradiente. El gradiente puede no apuntar directamente hacia la solución de la red elástica. Pero, como la función de pérdida de la red elástica es convexa, la dirección/magnitud local da algunos información sobre la diferencia entre la solución de red elástica y la solución de regresión de puente.

Caso 1: Comprobación del estado de salud

( $\lambda_b = 0, \lambda_1 = 0, \lambda_2 = 1$ ). La regresión puente en este caso es equivalente a los mínimos cuadrados ordinarios (OLS), porque la magnitud de la penalización es cero. La red elástica es equivalente a la regresión de cresta, porque sólo la $\ell_2$ se penaliza la norma. Los siguientes gráficos muestran diferentes soluciones de regresión de puentes y cómo se comporta el gradiente neto elástico para cada una de ellas.

enter image description here

Gráfico de la izquierda: Gradiente de la red elástica frente al peso de la regresión del puente a lo largo de cada dimensión

El eje x representa un componente de un conjunto de pesos $w^*$ seleccionado por regresión de puente. El eje y representa el componente correspondiente del gradiente neto elástico, evaluado en $w^*$ . Tenga en cuenta que los pesos son multidimensionales, pero sólo estamos viendo los pesos/gradientes a lo largo de una sola dimensión.

Parcela derecha: Cambios netos elásticos en los pesos de regresión de los puentes (2d)

Cada punto representa un conjunto de pesos 2d $w^*$ seleccionado por regresión de puente. Para cada elección de $w^*$ se traza un vector que apunta en la dirección opuesta al gradiente de la red elástica, con una magnitud proporcional a la del gradiente. Es decir, los vectores trazados muestran cómo la red elástica quiere cambiar la solución de regresión del puente.

Estos gráficos muestran que, en comparación con la regresión puente (OLS en este caso), la red elástica (regresión de cresta en este caso) quiere encoger los pesos hacia cero. La cantidad deseada de contracción aumenta con la magnitud de los pesos. Si los pesos son cero, las soluciones son las mismas. La interpretación es que queremos movernos en la dirección opuesta al gradiente para reducir la función de pérdida. Por ejemplo, digamos que la regresión del puente converge a un valor positivo para uno de los pesos. El gradiente de la red elástica es positivo en este punto, por lo que la red elástica quiere disminuir este peso. Si se utiliza el descenso de gradiente, tomaríamos pasos proporcionales al tamaño del gradiente (por supuesto, técnicamente no podemos utilizar el descenso de gradiente para resolver la red elástica debido a la no diferenciabilidad en cero, pero el descenso de subgradiente daría resultados numéricamente similares).

Caso 2: Puente de unión y red elástica

( $q = 1.4, \lambda_b = 1, \lambda_1 = 0.629, \lambda_2 = 0.355$ ). He elegido los parámetros de penalización del puente para que coincidan con el ejemplo de la pregunta. Elegí los parámetros de la red elástica para dar la mejor coincidencia con la penalización de la red elástica. Aquí, la mejor coincidencia significa que, dada una distribución particular de pesos, encontramos los parámetros de penalización de la red elástica que minimizan la diferencia cuadrada esperada entre las penalizaciones del puente y de la red elástica:

$$ \min_{\lambda_1, \lambda_2} \enspace E \left [ ( \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 - \lambda_b \|w\|_q^q )^2 \right ] $$

Aquí, consideré pesos con todas las entradas extraídas i.i.d. de la distribución uniforme en $[-2, 2]$ (es decir, dentro de un hipercubo centrado en el origen). Los parámetros de la red elástica que mejor se ajustaban eran similares para las dimensiones de 2 a 1000. Aunque no parecen ser sensibles a la dimensionalidad, los parámetros de mejor ajuste sí dependen de la escala de la distribución.

Superficie de penalización

Este es un gráfico de contorno de la penalización total impuesta por la regresión del puente ( $q=1.4, \lambda_b=100$ ) y la red elástica más adecuada ( $\lambda_1 = 0.629, \lambda_2 = 0.355$ ) en función de los pesos (para el caso 2d):

enter image description here

Comportamiento del gradiente

enter image description here

Podemos ver lo siguiente:

  • Dejemos que $w^*_j$ sea el peso de regresión del puente elegido a lo largo de la dimensión $j$ .
  • Si $|w^*_j|< 0.25$ , la red elástica quiere encoger el peso hacia cero.
  • Si $|w^*_j| \approx 0.25$ las soluciones de regresión de puente y de red elástica son las mismas. Pero, la red elástica quiere alejarse si el peso difiere mínimamente.
  • Si $0.25 < |w^*_j| < 1.31$ La red elástica quiere aumentar el peso.
  • Si $|w^*_j| \approx 1.31$ las soluciones de regresión de puente y de red elástica son las mismas. La red elástica quiere moverse hacia este punto desde los pesos cercanos.
  • Si $|w^*_j| > 1.31$ La red elástica quiere encoger el peso.

Los resultados son cualitativamente similares si cambiamos el valor de $q$ y/o $\lambda_b$ y encontrar el correspondiente mejor $\lambda_1, \lambda_2$ . Los puntos en los que coinciden las soluciones del puente y de la red elástica cambian ligeramente, pero el comportamiento de los gradientes es, por lo demás, similar.

Caso 3: Puente y red elástica desajustados

$(q=1.8, \lambda_b=1, \lambda_1=0.765, \lambda_2 = 0.225)$ . En este régimen, la regresión puente se comporta de forma similar a la regresión de cresta. He encontrado la mejor coincidencia $\lambda_1, \lambda_2$ pero luego los intercambiamos para que la red elástica se comporte más como el lazo ( $\ell_1$ pena mayor que $\ell_2$ de la pena).

enter image description here

En relación con la regresión puente, la red elástica quiere reducir los pesos pequeños hacia cero y aumentar los pesos más grandes. Hay un único conjunto de pesos en cada cuadrante en el que las soluciones de regresión puente y de red elástica coinciden, pero la red elástica quiere alejarse de este punto si los pesos difieren mínimamente.

$(q=1.2, \lambda_b=1, \lambda_1=173, \lambda_2 = 0.816)$ . En este régimen, la penalización del puente es más parecida a una $\ell_1$ (aunque la regresión puente puede no producir soluciones dispersas con $q > 1$ como se menciona en el documento de la red elástica). Encontré la mejor coincidencia $\lambda_1, \lambda_2$ pero luego los intercambiamos para que la red elástica se comporte más como una regresión de cresta ( $\ell_2$ pena mayor que $\ell_1$ de la pena).

enter image description here

En relación con la regresión puente, la red elástica quiere aumentar los pesos pequeños y reducir los pesos grandes. Hay un punto en cada cuadrante en el que las soluciones de la regresión puente y de la red elástica coinciden, y la red elástica quiere moverse hacia estos pesos desde los puntos vecinos.

3 votos

(+1) ¡Gran respuesta, gracias por el esfuerzo! Podrías abordar una última cosa: "¿la Red Elástica es siempre más deseable?". No hace falta extenderse;

7 votos

La regresión puente y la red elástica son equivalentes a la estimación MAP con diferentes tipos de prejuicios sobre las ponderaciones. Desde este punto de vista, parece que la mejor elección sería la priorización que mejor se ajuste al proceso de generación de datos, y que ninguno de los dos métodos podría ser mejor en todos los casos.

1 votos

¡Vaya, qué respuesta! ¡Increíble! Es una pena que no haya información sobre ti en tu perfil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X