En resumen: La maximización del margen puede considerarse de forma más general como la regularización de la solución minimizando $w$ (que es esencialmente minimizar la complejidad del modelo) esto se hace tanto en la clasificación como en la regresión. Pero en el caso de la clasificación esta minimización se hace bajo la condición de que todos los ejemplos se clasifiquen correctamente y en el caso de la regresión bajo la condición de que el valor $y$ de todos los ejemplos se desvía menos de la precisión requerida $\epsilon$ de $f(x)$ para la regresión.
Para entender cómo se pasa de la clasificación a la regresión ayuda ver cómo en ambos casos se aplica la misma teoría SVM para formular el problema como un problema de optimización convexo. Voy a tratar de poner ambos lado a lado.
(Ignoraré las variables de holgura que permiten clasificaciones erróneas y desviaciones por encima de la precisión $\epsilon$ )
Clasificación
En este caso el objetivo es encontrar una función $f(x)= wx +b$ donde $f(x) \geq 1$ para los ejemplos positivos y $f(x) \leq -1$ para los ejemplos negativos. En estas condiciones queremos maximizar el margen (distancia entre las 2 barras rojas) que no es más que minimizar la derivada de $f'=w$ .
La intuición detrás de maximizar el margen es que esto nos dará una solución única al problema de encontrar $f(x)$ (es decir, descartamos por ejemplo la línea azul) y también que esta solución es la más general en estas condiciones, es decir, actúa como regularización . Esto puede verse como, alrededor del límite de decisión (donde se cruzan las líneas rojas y negras) la incertidumbre de clasificación es la mayor y la elección del valor más bajo para $f(x)$ en esta región dará la solución más general.
Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange no nulos de la parte de igualdad de las condiciones de desigualdad $f(x) \geq 1$ y $f(x) \leq -1$
Regresión
En este caso el objetivo es encontrar una función $f(x)= wx +b$ (línea roja) bajo la condición de que $f(x)$ está dentro de una precisión requerida $\epsilon$ a partir del valor $y(x)$ (barras negras) de cada punto de datos, es decir $|y(x) -f(x)|\leq \epsilon$ donde $epsilon$ es la distancia entre la línea roja y la gris. Con esta condición, también queremos minimizar $f'(x)=w$ , de nuevo por la razón de la regularización y para obtener una solución única como resultado del problema de optimización convexa. Se puede ver cómo la minimización de $w$ resulta en un caso más general ya que el valor extremo de $w=0$ significaría que no hay ninguna relación funcional, que es el resultado más general que se puede obtener de los datos.
Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange no nulos de la parte de igualdad de la condición de desigualdad $|y -f(x)|\leq \epsilon$ .
Conclusión
En ambos casos se produce el siguiente problema:
$$ \text{min} \frac{1}{2}w^2 $$
Con la condición de que:
- Todos los ejemplos se clasifican correctamente (Clasificación)
- El valor $y$ de todos los ejemplos se desvía menos de $\epsilon$ de $f(x)$ . (Regresión)