El contexto de mi pregunta tiene aplicaciones para el aprendizaje automático, en particular para las SVM, pero no es de eso de lo que quiero hablar aquí. En su lugar, me gustaría centrarme en las matemáticas.
Así que..: Que $\ell_H: \mathbb R\rightarrow \mathbb R_{\infty}$ sea la pérdida de bisagra $\ell_H(x) = \max\{0, 1-x\}$ . Sea $J:\mathbb R^m\rightarrow \mathbb R_{\infty}$ sea la función (llamada "función de pérdida" en aprendizaje automático) $J(z) = \sum_{i = 1}^{m}\ell_H(z_i)$ . En un ejercicio, se supone que debemos derivar el problema dual para esta función de pérdida $J$ . De nuestras notas de clase:
Sea $J:X\rightarrow\mathbb R_{\infty}$ ser de la forma $J(x) = F(x) + G(Ax)$ con mapas convexos, semicontinuos inferiores y propios $F:X\rightarrow\mathbb R_{\infty}$ y $G:Y\rightarrow \mathbb R_{\infty}$ y operador lineal acotado $A:X\rightarrow Y$ . Introducimos la perturbación $\Phi: X\times Y\rightarrow \mathbb R_{\infty}$ , $\Phi(x, p) = F(x) + G(Ax-p)$ [...] .
Definición . En problema primario se define como $$\inf_{x\in X} \Phi(x, 0) = \inf_{x\in X}F(x) + G(Ax), \qquad (\mathcal P)$$ y la correspondiente problema dual con respecto a la perturbación $\Phi$ se define por $$\sup_{p^{\star}\in Y^{\star}}\left\{ -\Phi^{\star}(0, p^{\star})\right\}. \qquad\qquad\qquad\qquad (\mathcal D)$$
Algunas observaciones:
- $\Phi^{\star}$ se refiere al conjugado de Fenchel, escribí la definición en este post . $p^{\star}$ es un elemento del espacio dual de $Y$ es decir $p^{\star}\in Y^{\star}$ .
- En la conferencia, también demostramos que $\Phi^{\star}(0, p^{\star}) = F^{\star}(A^{\star}p^{\star}) + G^{\star}(-p^{\star})$ donde $F^{\star}$ y $G^{\star}$ se refieren de nuevo a los conjugados de Fenchel, por lo que podemos escribir el problema dual como $$\sup_{p^{\star}\in Y^{\star}}\left\{ -\Phi^{\star}(0, p^{\star})\right\} = \sup_{p^{\star}\in Y^{\star}}\left\{ -F^{\star}(A^{\star}p^{\star})-G^{\star}(-p^{\star})\right\}.$$ .
Me planteo las dos preguntas siguientes:
- No estoy seguro de cómo escribir la función dada $J(z) = \sum_{i = 1}^{m}\ell_H(z_i) = \sum_{i = 1}^{m}\max\{0, 1-z_i\}$ de la forma $J(x) = F(x) + G(Ax)$ .
- En un primer paso del ejercicio, también debíamos calcular el subdiferencial de la función $g(x) = \max\{0, x\}$ . ¿Por qué es necesario? (Tenga en cuenta que esto no es un error tipográfico, por lo que $g(x) \ne \ell_H(x)$ .)