No existe una "función de pérdida" para las SVM de margen duro, pero cuando resolvemos las SVM de margen blando, resulta que la pérdida existe.
Ahora está la explicación detallada:
Cuando hablamos de función de pérdida, lo que realmente queremos decir es un objetivo de entrenamiento que queremos minimizar.
En la configuración de la SVM de margen duro, el "objetivo" es maximizar el margen geométrico, ya que cada ejemplo de entrenamiento se encuentra fuera del hiperplano de separación, es decir. $$\begin{aligned} & \max_{\gamma, w, b}\frac{1}{\Vert w \Vert} \\ &s.t\quad y(w^Tx+b) \ge 1 \end{aligned} $$ Tenga en cuenta que este es un problema de programación cuadrática, por lo que no podemos resolverlo numéricamente utilizando el enfoque de descenso de gradiente directo, es decir, no hay una "función de pérdida" analítica para las SVM de margen duro.
Sin embargo, en la configuración de la SVM de margen suave, añadimos una variable de holgura para permitir que nuestra SVM cometa errores. Ahora intentamos resolver $$\begin{aligned} & \min_{w,b,\boldsymbol{\xi}}\frac{1}{2}\Vert w \Vert_2^2 + C\sum \xi_i \\ s.t\quad &y_i(w^Tx_i+b) \ge 1-\xi_i \\ & \boldsymbol{\xi} \succeq \mathbf{0} \end{aligned} $$ Esto es lo mismo que tratar de penalizar el ejemplo de entrenamiento mal clasificado $x_i$ añadiendo $C\xi_i$ a nuestro objetivo de ser minimizado. Recordemos la pérdida de la bisagra: $$ \ell_{\mbox{hinge}}(z) = \max\{0, 1-z\}, $$ ya que si el ejemplo de entrenamiento se encuentra fuera del margen $\xi_i$ será cero y sólo será distinto de cero cuando el ejemplo de entrenamiento caiga en la región del margen, y como la pérdida de bisagra es siempre no negativa, resulta que podemos reformular nuestro problema como $$ \min \frac{1}{2}\Vert w \Vert_2^2 + C\sum\ell_{\mbox{hinge}}(y_i(w^Tx_i)). $$ Sabemos que la pérdida de bisagra es convexa y su derivada es conocida, por lo que podemos resolver la SVM de margen suave directamente por descenso de gradiente.
Así que la variable de holgura es sólo la pérdida de bisagra en el disfraz, y la propiedad de la pérdida de bisagra pasa a envolver nuestras restricciones de optimización (es decir, la no negatividad y activa la entrada cuando es menos de 1).