2 votos

¿Una regularización más fuerte debe conducir a una pérdida mayor?

En muchos problemas de aprendizaje automático, la función objetivo que pretendemos resolver tiene la forma:

$\min_w \mathcal{L}(w) + \lambda\mathcal{R}(w)$ ,

donde $\mathcal{L}(w)$ (por ejemplo, pérdida al cuadrado) es una función de pérdida, $\mathcal{R}(w)$ es una función de regularización (por ejemplo, $\mathcal{R}(w) = ||w||_2^2$ ), y $\lambda\ge 0$ es un parámetro de regularización que controla el equilibrio entre $\mathcal{L}(w)$ y $\mathcal{R}(w)$ .

Si tenemos $\lambda_1 \le \lambda_2$ y las soluciones correspondientes son $w_1$ y $w_2$ . La intuición es que tendremos $\mathcal{L}(w_1) \le \mathcal{L}(w_2)$ ya que una mayor $\lambda$ conduce a una restricción más fuerte (O también podemos pensar en el problema desde la perspectiva dual). Me preguntaba si hay alguna manera de demostrar formalmente esta intuición.

Gracias.

1voto

user87023 Puntos 1

Sí, ¡con barajar los términos es suficiente! El hecho de que $w_1$ y $w_2$ minimizar sus respectivos objetivos significa que

$L(w_1)+\lambda_1 R(w_1)\leq L(w_2)+\lambda_1 R(w_2)$

y

$L(w_2)+\lambda_2 R(w_2)\leq L(w_1)+\lambda_2 R(w_1)$ .

Reordenando, obtenemos

$\lambda_2 \big[R(w_2) - R(w_1)\big]\leq L(w_1) - L(w_2) \leq \lambda_1 \big[R(w_2)- R(w_1)\big]$

y restando,

$(\lambda_2-\lambda_1)\big[R(w_2) - R(w_1)\big]\leq 0$ .

Desde $(\lambda_2-\lambda_1) > 0$ podemos dividirlo para obtener

$\big[R(w_2) - R(w_1)\big]\leq 0$

y puesto que $\lambda_1>0$ podemos multiplicar por ella para obtener

$\lambda_1 \big[R(w_2)- R(w_1)\big]\leq 0$ .

Ponerlo todo junto,

$L(w_1) - L(w_2) \leq \lambda_1 \big[R(w_2)- R(w_1)\big]\leq 0$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X