15 votos

Norma L1 y norma L2

Estaba estudiando el libro de texto de Stephen Boyd sobre optimización de convexos. Dice lo siguiente:

La distribución de la amplitud del residuo óptimo para el problema de aproximación de la norma l1 tenderá a tener más residuos cero y muy pequeños, en comparación con la solución de aproximación de la norma l2. Por el contrario, la solución de la norma l2 tenderá a tener relativamente menos residuos grandes (ya que los residuos grandes incurren en una penalización mucho mayor en la aproximación de la norma l2 que en la aproximación de la norma l1).

Entiendo por qué la segunda frase se mantiene obviamente, la norma l2 pone una pena más alta en un residuo más alto y por lo tanto habría menos residuos más altos. Pero, no puedo entender la primera frase. La norma I1 impone una mayor penalización a los residuos entre 0 y 1 que la norma I2 y por lo tanto me parece que la norma I2 debería producir más residuos pequeños. ¿Alguien puede explicarme por qué la norma l1 genera más residuos pequeños que la norma l2?

De hecho, las dos declaraciones suenan contradictorias entre sí. Si la norma L2 genera menos residuos grandes, suena como si generara más residuos pequeños que la norma L1.

1 votos

El hecho de que diga "en cambio" también indica que podría ser un error tipográfico, y tal vez se quiso decir "menos" en la primera frase en lugar de "más".

8voto

Clinton Puntos 1390

Permítanme destacar las partes de la frase que deben agruparse:

La distribución de amplitud del residuo óptimo para el problema de aproximación de la norma l1 tenderá a tener más (cero y residuos muy pequeños) en comparación con la solución de aproximación de la norma l2. En cambio, la solución de la norma l2 tenderá a tener relativamente menos (grandes residuos) (ya que los residuos grandes incurren en una penalización mucho mayor en la aproximación de la norma l2 que en la aproximación de la norma l1).

Esto no significa que no se vean grandes residuos en problemas de l1-norma (hay que leer entre líneas). Esto significa que la minimización del error l1 tenderá a producir soluciones que tienen:

  • algunos residuos que son más grande y
  • muchos muy insignificante residuos.

En otras palabras, la distribución de los residuos será muy "puntiaguda". (Esto es bueno, por ejemplo, cuando se quiere ser robusto ante los valores atípicos: este método "permite" tener unos pocos residuos grandes (es decir, errores grandes) mientras se mantiene la mayoría de los errores pequeños).

Los residuos L2, en cambio, producirán:

  • muy pocos gran residuales, porque se les penaliza mucho más,
  • pero a costa de tener mucho más pequeño residuos que siguen siendo significativos.

En otras palabras, la distribución de los residuos será mucho menos "puntiaguda" y más "uniforme". (Esto es bueno cuando no se tienen valores atípicos y se quiere mantener el error global pequeño: producirá un mejor "ajuste").

0 votos

Muchas gracias. ¿Puedes responder a una pregunta más? ¿Por qué l1 tiene un pico más alto alrededor de cero que l2?

2 votos

Depende de los datos, pero asumiendo que los datos tienen valores atípicos, una minimización l2 se moverá hacia los valores atípicos para reducir el error cuadrado. Pero se alejará de los otros puntos, y el error para esos puntos aumentará. Por lo tanto, aleja el error de cero. L1 no hace eso porque el error escala linealmente con la distancia, por lo que un montón de error para un valor atípico es esencialmente equivalente a pequeños errores para todo lo demás. Dado que se desea un mejor ajuste, se puede tomar el gran error para el (o los pocos) valor(es) atípico(s).

1 votos

Además, si los datos que se ajustan son ruidosos, con una norma L1, el resultado puede situarse felizmente en cualquier lugar entre los puntos, mientras que una norma L2 tendrá su mínimo en el centro.

1voto

Prasant Nair Puntos 1

En muchas situaciones, los datos se comportan como residuos mod 9, 90. En esos casos, es mejor y correcto utilizar la norma L1. Los residuos deben expandirse al máximo, y eso también, sin funciones de potencia [la norma L2 tiene cuadratura].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X