23 votos

¿Por qué la pérdida de norma L2 tiene una solución única y la pérdida de norma L1 tiene posiblemente múltiples soluciones?

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Si nos fijamos en la parte superior de este post, el escritor menciona que la norma L2 tiene una única solución y la norma L1 tiene posiblemente muchas soluciones. Entiendo esto en términos de regularización, pero no en términos de uso de norma L1 o norma L2 en la función de pérdida.

Si nos fijamos en las gráficas de las funciones de x escalar (x^2 y |x|), podemos ver fácilmente que ambas tienen una única solución.

31voto

AdamSane Puntos 1825

Consideremos un problema unidimensional para una exposición lo más sencilla posible. (Los casos dimensiones tienen propiedades similares).

Aunque ambos $|x-\mu|$ y $(x-\mu)^2$ cada uno tiene un mínimo único, $\sum_i |x_i-\mu|$ (una suma de funciones de valor absoluto con diferentes desplazamientos x) a menudo no lo hace. Consideremos $x_1=1$ y $x_2=3$ :

Plot of sum_i |x_i - mu|

(NB a pesar de la etiqueta en el eje x, esto es realmente una función de $\mu$ Debería haber modificado la etiqueta, pero la dejaré como está.)

En dimensiones superiores, se pueden obtener regiones de mínimo constante con el $L_1$ -norm. Hay un ejemplo en el caso del ajuste de líneas aquí .

Las sumas de cuadráticas siguen siendo cuadráticas, así que $\sum_i (x_i-\mu)^2 = n(\bar{x}-\mu)^2+k(\mathbf{x})$ tendrá una solución única. En dimensiones más altas (por ejemplo, regresión múltiple), el problema cuadrático puede no tener automáticamente un mínimo único: puede haber multicolinealidad que conduzca a una cresta de dimensiones más bajas en el negativo de la pérdida en el espacio de parámetros.


Una advertencia. La página a la que enlazas afirma que $L_1$ -La regresión normal es robusta. Tengo que decir que no estoy totalmente de acuerdo. Es robusto contra grandes desviaciones en la dirección y, siempre que no sean puntos influyentes (discrepante en el espacio x). Incluso un único valor atípico influyente puede estropearlo de forma arbitraria. Un ejemplo aquí .

Dado que (fuera de algunas circunstancias específicas) no se suele tener ninguna garantía de que no haya observaciones muy influyentes, yo no llamaría robusta a la regresión L1.


Código R para el gráfico:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)

10voto

Tomas Lycken Puntos 23432

La minimización de la pérdida L2 corresponde al cálculo de la media aritmética, que no es ambigua, mientras que la minimización de la pérdida L1 corresponde al cálculo de la mediana, que es ambigua si se incluye un número par de elementos en el cálculo de la mediana (véase Tendencia central: Soluciones a problemas variacionales ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X