Esperaba entender lo que el suave $l_1$ pérdida hace, pero no soy capaz de encontrar ninguna buena explicación de en línea, sé $l_1$ pérdida calcula el error absoluto, pero para qué sirve la suavidad $L_1$ Cualquier respuesta sería útil.
Respuesta
¿Demasiados anuncios?La pérdida L1 suave puede interpretarse como una combinación de pérdida L1 y pérdida L2. Se comporta como L1-pérdida cuando el valor absoluto del argumento es alto, y se comporta como L2-pérdida cuando el valor absoluto del argumento es cercano a cero. La ecuación es:
$L_{1;smooth} = \begin{cases}|x| & \text{if $ |x|> \alpha$;} \\ \frac{1}{|\alpha|}x^2 & \text{if $ |x| \leq \alpha$}\end{cases}$
$\alpha$ es un hiperparámetro y se suele tomar como 1. $\frac{1}{\alpha}$ aparece cerca de $x^2$ término para que sea continuo.
La pérdida L1 suave combina las ventajas de la pérdida L1 (gradientes estables para grandes valores de $x$ ) y la pérdida L2 (menos oscilaciones durante las actualizaciones cuando $x$ es pequeño).
Otra forma de pérdida suave de L1 es la pérdida de Huber. Consiguen lo mismo. Tomado de Wikipedia, la pérdida de Huber es
$ L_\delta (a) = \begin{cases} \frac{1}{2}{a^2} & \text{for } |a| \le \delta, \\ \delta (|a| - \frac{1}{2}\delta), & \text{otherwise.} \end{cases} $