31 votos

¿Cuál es la función de pérdida de la SVM de margen duro?

Se dice que la SVM de margen suave utiliza la función de pérdida de bisagra: $\max(0,1-y_i(w^\intercal x_i+b))$ . Sin embargo, la función objetivo real que la SVM de margen suave intenta minimizar es $$ \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) $$ Algunos autores llaman al $\|w\|^2$ y el regularizador de términos $\max(0,1-y_i(w^\intercal x_i+b))$ función de pérdida de términos.

Sin embargo, para la SVM de margen duro, toda la función objetivo es sólo $$ \frac{1}{2}\|w\|^2 $$ ¿Significa eso que la SVM de margen duro sólo minimiza un regularizador sin ninguna función de pérdida? Eso suena muy extraño.

Bueno, si $\frac{1}{2}\|w\|^2$ es la función de pérdida en este caso, ¿podemos llamarla función de pérdida cuadrática? Si es así, ¿por qué la función de pérdida de la SVM de margen duro se convierte en regularizador en la SVM de margen blando y hace un cambio de pérdida cuadrática a pérdida de bisagra?

34voto

Marc Claesen Puntos 9818

El término de pérdida de la bisagra $\sum_i\max(0,1-y_i(\mathbf{w}^\intercal \mathbf{x}_i+b))$ en el margen suave SVM penaliza clasificaciones erróneas . En la SVM de margen duro no hay, por definición, clasificaciones erróneas.

Esto significa que la SVM de margen duro trata de minimizar $\|\mathbf{w}\|^2$ . Debido a la formulación del problema SVM, el margen es $2/\|\mathbf{w}\|$ . Así, la minimización de la norma de $\mathbf{w}$ es geométricamente equivalente a maximizar el margen. Exactamente lo que queremos.

Regularización es una técnica para evitar el sobreajuste penalizando los coeficientes grandes en el vector solución. En la SVM de margen duro $\|\mathbf{w}\|^2$ es tanto la función de pérdida et un $L_2$ regularizador.

En la SVM de margen suave, el término de pérdida de bisagra también actúa como un regularizador pero sobre las variables de holgura en lugar de $\mathbf{w}$ y en $L_1$ en lugar de $L_2$ . $L_1$ La regularización induce la escasez, por lo que la SVM estándar es escasa en términos de vectores de soporte (en contraste con la SVM de mínimos cuadrados).

2voto

Diver Dan Puntos 3198

No existe una "función de pérdida" para las SVM de margen duro, pero cuando resolvemos las SVM de margen blando, resulta que la pérdida existe.

Ahora está la explicación detallada:

Cuando hablamos de función de pérdida, lo que realmente queremos decir es un objetivo de entrenamiento que queremos minimizar.

En la configuración de la SVM de margen duro, el "objetivo" es maximizar el margen geométrico, ya que cada ejemplo de entrenamiento se encuentra fuera del hiperplano de separación, es decir. $$\begin{aligned} & \max_{\gamma, w, b}\frac{1}{\Vert w \Vert} \\ &s.t\quad y(w^Tx+b) \ge 1 \end{aligned} $$ Tenga en cuenta que este es un problema de programación cuadrática, por lo que no podemos resolverlo numéricamente utilizando el enfoque de descenso de gradiente directo, es decir, no hay una "función de pérdida" analítica para las SVM de margen duro.

Sin embargo, en la configuración de la SVM de margen suave, añadimos una variable de holgura para permitir que nuestra SVM cometa errores. Ahora intentamos resolver $$\begin{aligned} & \min_{w,b,\boldsymbol{\xi}}\frac{1}{2}\Vert w \Vert_2^2 + C\sum \xi_i \\ s.t\quad &y_i(w^Tx_i+b) \ge 1-\xi_i \\ & \boldsymbol{\xi} \succeq \mathbf{0} \end{aligned} $$ Esto es lo mismo que tratar de penalizar el ejemplo de entrenamiento mal clasificado $x_i$ añadiendo $C\xi_i$ a nuestro objetivo de ser minimizado. Recordemos la pérdida de la bisagra: $$ \ell_{\mbox{hinge}}(z) = \max\{0, 1-z\}, $$ ya que si el ejemplo de entrenamiento se encuentra fuera del margen $\xi_i$ será cero y sólo será distinto de cero cuando el ejemplo de entrenamiento caiga en la región del margen, y como la pérdida de bisagra es siempre no negativa, resulta que podemos reformular nuestro problema como $$ \min \frac{1}{2}\Vert w \Vert_2^2 + C\sum\ell_{\mbox{hinge}}(y_i(w^Tx_i)). $$ Sabemos que la pérdida de bisagra es convexa y su derivada es conocida, por lo que podemos resolver la SVM de margen suave directamente por descenso de gradiente.

Así que la variable de holgura es sólo la pérdida de bisagra en el disfraz, y la propiedad de la pérdida de bisagra pasa a envolver nuestras restricciones de optimización (es decir, la no negatividad y activa la entrada cuando es menos de 1).

0voto

Andrei Puntos 11

Sólo para aclarar, $$ \frac{1}{2}\|w\|^2 $$ se minimiza con la condición de que los puntos sean linealmente separables (es decir, que se pueda trazar un hiperplano que los separe perfectamente). En otras palabras, los únicos valores permitidos de w que podemos considerar como soluciones son los que separan los dos conjuntos de puntos.

Ahora bien, se cree que la SVM de margen duro se "sobreajusta" más fácilmente que la de margen blando. Esto es más fácil de imaginar con una SVM RBF con $\gamma$ que pueden crear límites de decisión (demasiado) complicados y (potencialmente) demasiado ajustados. Cuanto más duro sea el margen (emulado de forma imprecisa con una "C" más alta), más se esforzará la búsqueda por encontrar límites de decisión que clasifiquen perfectamente los dos conjuntos de puntos.

Cuando pasamos al "margen suave", las restricciones se relajan y se sustituyen por una restricción mediante la introducción de "holgura". Esta variable de holgura se define con un término de "pérdida de bisagra". Después de la simplificación, se llega a la bisagra + l2 como término de pérdida que todo el mundo asocia con SVMs. Por cierto, me gusta enmarcar las SVM como un problema de optimización en lugar del omnipresente problema de "seguir los gradientes".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X