2 votos

Problema dual de la función de pérdida de bisagra

El contexto de mi pregunta tiene aplicaciones para el aprendizaje automático, en particular para las SVM, pero no es de eso de lo que quiero hablar aquí. En su lugar, me gustaría centrarme en las matemáticas.

Así que..: Que $\ell_H: \mathbb R\rightarrow \mathbb R_{\infty}$ sea la pérdida de bisagra $\ell_H(x) = \max\{0, 1-x\}$ . Sea $J:\mathbb R^m\rightarrow \mathbb R_{\infty}$ sea la función (llamada "función de pérdida" en aprendizaje automático) $J(z) = \sum_{i = 1}^{m}\ell_H(z_i)$ . En un ejercicio, se supone que debemos derivar el problema dual para esta función de pérdida $J$ . De nuestras notas de clase:

Sea $J:X\rightarrow\mathbb R_{\infty}$ ser de la forma $J(x) = F(x) + G(Ax)$ con mapas convexos, semicontinuos inferiores y propios $F:X\rightarrow\mathbb R_{\infty}$ y $G:Y\rightarrow \mathbb R_{\infty}$ y operador lineal acotado $A:X\rightarrow Y$ . Introducimos la perturbación $\Phi: X\times Y\rightarrow \mathbb R_{\infty}$ , $\Phi(x, p) = F(x) + G(Ax-p)$ [...] .

Definición . En problema primario se define como $$\inf_{x\in X} \Phi(x, 0) = \inf_{x\in X}F(x) + G(Ax), \qquad (\mathcal P)$$ y la correspondiente problema dual con respecto a la perturbación $\Phi$ se define por $$\sup_{p^{\star}\in Y^{\star}}\left\{ -\Phi^{\star}(0, p^{\star})\right\}. \qquad\qquad\qquad\qquad (\mathcal D)$$

Algunas observaciones:

  1. $\Phi^{\star}$ se refiere al conjugado de Fenchel, escribí la definición en este post . $p^{\star}$ es un elemento del espacio dual de $Y$ es decir $p^{\star}\in Y^{\star}$ .
  2. En la conferencia, también demostramos que $\Phi^{\star}(0, p^{\star}) = F^{\star}(A^{\star}p^{\star}) + G^{\star}(-p^{\star})$ donde $F^{\star}$ y $G^{\star}$ se refieren de nuevo a los conjugados de Fenchel, por lo que podemos escribir el problema dual como $$\sup_{p^{\star}\in Y^{\star}}\left\{ -\Phi^{\star}(0, p^{\star})\right\} = \sup_{p^{\star}\in Y^{\star}}\left\{ -F^{\star}(A^{\star}p^{\star})-G^{\star}(-p^{\star})\right\}.$$ .

Me planteo las dos preguntas siguientes:

  • No estoy seguro de cómo escribir la función dada $J(z) = \sum_{i = 1}^{m}\ell_H(z_i) = \sum_{i = 1}^{m}\max\{0, 1-z_i\}$ de la forma $J(x) = F(x) + G(Ax)$ .
  • En un primer paso del ejercicio, también debíamos calcular el subdiferencial de la función $g(x) = \max\{0, x\}$ . ¿Por qué es necesario? (Tenga en cuenta que esto no es un error tipográfico, por lo que $g(x) \ne \ell_H(x)$ .)

1voto

Pavel Hodek Puntos 2488

Para la primera parte, si $A=-I$ y $G: \mathbf{R}^m\rightarrow \mathbf{R}^m$ es la función $\max(0, 1 + x)$ (donde $0$ y $1$ son los vectores de todos los ceros/ones respectivamente) que deberían ajustarse a la forma que has proporcionado ( $F(x)=0$ en este caso).

Para la segunda parte, el conjugado de Fenchel requiere tomar un supremum que a menudo se puede hacer analíticamente tomando el gradiente y poniéndolo a 0. Supongo que el subgradiente será necesario para algo como esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X