La diferencia entre la regresión puente y la red elástica es una cuestión fascinante, dado que sus penalizaciones son similares. He aquí un posible enfoque. Supongamos que resolvemos el problema de la regresión puente. A continuación, podemos preguntar en qué se diferenciaría la solución de la red elástica. Observar los gradientes de las dos funciones de pérdida puede decirnos algo al respecto.
Regresión del puente
Diga $X$ es una matriz que contiene los valores de la variable independiente ( $n$ puntos x $d$ dimensiones), $y$ es un vector que contiene los valores de la variable dependiente, y $w$ es el vector de pesos.
La función de pérdida penaliza el $\ell_q$ norma de los pesos, con magnitud $\lambda_b$ :
$$ L_b(w) = \| y - Xw\|_2^2 + \lambda_b \|w\|_q^q $$
El gradiente de la función de pérdida es:
$$ \nabla_w L_b(w) = -2 X^T (y - Xw) + \lambda_b q |w|^{\circ(q-1)} \text{sgn}(w) $$
$v^{\circ c}$ denota la potencia de Hadamard (es decir, de los elementos), que da un vector cuyo $i$ Este elemento es $v_i^c$ . $\text{sgn}(w)$ es la función de signo (aplicada a cada elemento de $w$ ). El gradiente puede ser indefinido en cero para algunos valores de $q$ .
Red elástica
La función de pérdida es:
$$ L_e(w) = \|y - Xw\|_2^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 $$
Esto penaliza al $\ell_1$ norma de los pesos con magnitud $\lambda_1$ y el $\ell_2$ norma con magnitud $\lambda_2$ . El artículo sobre la red elástica llama a la minimización de esta función de pérdida la "red elástica ingenua" porque encoge doblemente los pesos. Describen un procedimiento mejorado en el que los pesos se reescalan posteriormente para compensar el doble encogimiento, pero yo sólo voy a analizar la versión ingenua. Es una advertencia a tener en cuenta.
El gradiente de la función de pérdida es:
$$ \nabla_w L_e(w) = -2 X^T (y - Xw) + \lambda_1 \text{sgn}(w) + 2 \lambda_2 w $$
El gradiente es indefinido en cero cuando $\lambda_1 > 0$ porque el valor absoluto en el $\ell_1$ la pena no es diferenciable allí.
Acérquese a
Digamos que seleccionamos los pesos $w^*$ que resuelven el problema de la regresión del puente. Esto significa que el gradiente de regresión del puente es cero en este punto:
$$ \nabla_w L_b(w^*) = -2 X^T (y - Xw^*) + \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) = \vec{0} $$
Por lo tanto:
$$ 2 X^T (y - Xw^*) = \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) $$
Podemos sustituir esto en el gradiente de la red elástica, para obtener una expresión para el gradiente de la red elástica en $w^*$ . Afortunadamente, ya no depende directamente de los datos:
$$ \nabla_w L_e(w^*) = \lambda_1 \text{sgn}(w^*) + 2 \lambda_2 w^* -\lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) $$
Observando el gradiente de la red elástica en $w^*$ nos dice: Dado que la regresión puente ha convergido a los pesos $w^*$ ¿cómo querría la red elástica cambiar estos pesos?
Nos da la dirección local y la magnitud del cambio deseado, porque el gradiente apunta en la dirección de mayor ascenso y la función de pérdida disminuirá a medida que nos movemos en la dirección opuesta al gradiente. El gradiente puede no apuntar directamente hacia la solución de la red elástica. Pero, como la función de pérdida de la red elástica es convexa, la dirección/magnitud local da algunos información sobre la diferencia entre la solución de red elástica y la solución de regresión de puente.
Caso 1: Comprobación del estado de salud
( $\lambda_b = 0, \lambda_1 = 0, \lambda_2 = 1$ ). La regresión puente en este caso es equivalente a los mínimos cuadrados ordinarios (OLS), porque la magnitud de la penalización es cero. La red elástica es equivalente a la regresión de cresta, porque sólo la $\ell_2$ se penaliza la norma. Los siguientes gráficos muestran diferentes soluciones de regresión de puentes y cómo se comporta el gradiente neto elástico para cada una de ellas.
Gráfico de la izquierda: Gradiente de la red elástica frente al peso de la regresión del puente a lo largo de cada dimensión
El eje x representa un componente de un conjunto de pesos $w^*$ seleccionado por regresión de puente. El eje y representa el componente correspondiente del gradiente neto elástico, evaluado en $w^*$ . Tenga en cuenta que los pesos son multidimensionales, pero sólo estamos viendo los pesos/gradientes a lo largo de una sola dimensión.
Parcela derecha: Cambios netos elásticos en los pesos de regresión de los puentes (2d)
Cada punto representa un conjunto de pesos 2d $w^*$ seleccionado por regresión de puente. Para cada elección de $w^*$ se traza un vector que apunta en la dirección opuesta al gradiente de la red elástica, con una magnitud proporcional a la del gradiente. Es decir, los vectores trazados muestran cómo la red elástica quiere cambiar la solución de regresión del puente.
Estos gráficos muestran que, en comparación con la regresión puente (OLS en este caso), la red elástica (regresión de cresta en este caso) quiere encoger los pesos hacia cero. La cantidad deseada de contracción aumenta con la magnitud de los pesos. Si los pesos son cero, las soluciones son las mismas. La interpretación es que queremos movernos en la dirección opuesta al gradiente para reducir la función de pérdida. Por ejemplo, digamos que la regresión del puente converge a un valor positivo para uno de los pesos. El gradiente de la red elástica es positivo en este punto, por lo que la red elástica quiere disminuir este peso. Si se utiliza el descenso de gradiente, tomaríamos pasos proporcionales al tamaño del gradiente (por supuesto, técnicamente no podemos utilizar el descenso de gradiente para resolver la red elástica debido a la no diferenciabilidad en cero, pero el descenso de subgradiente daría resultados numéricamente similares).
Caso 2: Puente de unión y red elástica
( $q = 1.4, \lambda_b = 1, \lambda_1 = 0.629, \lambda_2 = 0.355$ ). He elegido los parámetros de penalización del puente para que coincidan con el ejemplo de la pregunta. Elegí los parámetros de la red elástica para dar la mejor coincidencia con la penalización de la red elástica. Aquí, la mejor coincidencia significa que, dada una distribución particular de pesos, encontramos los parámetros de penalización de la red elástica que minimizan la diferencia cuadrada esperada entre las penalizaciones del puente y de la red elástica:
$$ \min_{\lambda_1, \lambda_2} \enspace E \left [ ( \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 - \lambda_b \|w\|_q^q )^2 \right ] $$
Aquí, consideré pesos con todas las entradas extraídas i.i.d. de la distribución uniforme en $[-2, 2]$ (es decir, dentro de un hipercubo centrado en el origen). Los parámetros de la red elástica que mejor se ajustaban eran similares para las dimensiones de 2 a 1000. Aunque no parecen ser sensibles a la dimensionalidad, los parámetros de mejor ajuste sí dependen de la escala de la distribución.
Superficie de penalización
Este es un gráfico de contorno de la penalización total impuesta por la regresión del puente ( $q=1.4, \lambda_b=100$ ) y la red elástica más adecuada ( $\lambda_1 = 0.629, \lambda_2 = 0.355$ ) en función de los pesos (para el caso 2d):
Comportamiento del gradiente
Podemos ver lo siguiente:
- Dejemos que $w^*_j$ sea el peso de regresión del puente elegido a lo largo de la dimensión $j$ .
- Si $|w^*_j|< 0.25$ , la red elástica quiere encoger el peso hacia cero.
- Si $|w^*_j| \approx 0.25$ las soluciones de regresión de puente y de red elástica son las mismas. Pero, la red elástica quiere alejarse si el peso difiere mínimamente.
- Si $0.25 < |w^*_j| < 1.31$ La red elástica quiere aumentar el peso.
- Si $|w^*_j| \approx 1.31$ las soluciones de regresión de puente y de red elástica son las mismas. La red elástica quiere moverse hacia este punto desde los pesos cercanos.
- Si $|w^*_j| > 1.31$ La red elástica quiere encoger el peso.
Los resultados son cualitativamente similares si cambiamos el valor de $q$ y/o $\lambda_b$ y encontrar el correspondiente mejor $\lambda_1, \lambda_2$ . Los puntos en los que coinciden las soluciones del puente y de la red elástica cambian ligeramente, pero el comportamiento de los gradientes es, por lo demás, similar.
Caso 3: Puente y red elástica desajustados
$(q=1.8, \lambda_b=1, \lambda_1=0.765, \lambda_2 = 0.225)$ . En este régimen, la regresión puente se comporta de forma similar a la regresión de cresta. He encontrado la mejor coincidencia $\lambda_1, \lambda_2$ pero luego los intercambiamos para que la red elástica se comporte más como el lazo ( $\ell_1$ pena mayor que $\ell_2$ de la pena).
En relación con la regresión puente, la red elástica quiere reducir los pesos pequeños hacia cero y aumentar los pesos más grandes. Hay un único conjunto de pesos en cada cuadrante en el que las soluciones de regresión puente y de red elástica coinciden, pero la red elástica quiere alejarse de este punto si los pesos difieren mínimamente.
$(q=1.2, \lambda_b=1, \lambda_1=173, \lambda_2 = 0.816)$ . En este régimen, la penalización del puente es más parecida a una $\ell_1$ (aunque la regresión puente puede no producir soluciones dispersas con $q > 1$ como se menciona en el documento de la red elástica). Encontré la mejor coincidencia $\lambda_1, \lambda_2$ pero luego los intercambiamos para que la red elástica se comporte más como una regresión de cresta ( $\ell_2$ pena mayor que $\ell_1$ de la pena).
En relación con la regresión puente, la red elástica quiere aumentar los pesos pequeños y reducir los pesos grandes. Hay un punto en cada cuadrante en el que las soluciones de la regresión puente y de la red elástica coinciden, y la red elástica quiere moverse hacia estos pesos desde los puntos vecinos.
8 votos
Sólo tangencialmente relacionado, pero si el $L_1$ es la estimación MAP de una regresión bayesiana con priores independientes de Laplace sobre los coeficientes, y la $L_2$ es la misma para las priorizaciones gaussianas, me pregunto si la penalización de Bridge es equivalente a una priorización Subbotin... stats.stackexchange.com/questions/201038/
0 votos
@RichardHardy No es necesario escribir lazo en mayúsculas, ver mi comentario aquí .
4 votos
Tenga en cuenta que la regresión de Bridge permite $\gamma<1$ que da una regresión no convexa. Esto es bueno en particular cuando se trata de seleccionar grupos de covariables, especialmente a partir de datos dispersos. O, en general, podría tener grupos predefinidos de covariables, que $L^2$ regularizar para que ningún grupo en particular sea grande, y luego $L^1$ regularizar los coeficientes de un solo grupo para lograr la dispersión. Es decir, si se escribe $\beta=(a_1,\cdots,a_k)$ , donde $a_i=(\beta_{i_1},\beta_{i_2,},\cdots,\beta_{i_r})$ entonces podrías hacer $\lambda_1 \|\beta\|^{\gamma_i}+\lambda_2\sum_i \|a_i\|^{\nu_i}$ .
0 votos
@AlexR. En realidad debería aclarar que me refiero a $\gamma \geq 1$ . No sabía $\gamma < 1$ también se llamaba Bridge.
1 votos
@amoeba, de acuerdo, bien. Normalmente no edito si el uso de las mayúsculas es coherente en todo el post, pero esta vez había tanto "LASSO" como "lasso", así que me limité a poner "LASSO" que era la primera forma en el post. Siempre pienso en el acrónimo, por eso usé las mayúsculas; pero como dices, puede ser mejor un simple "lasso".
0 votos
Otro debate sobre el tema stats.stackexchange.com/questions/184029/ .