30 votos

¿Cómo funciona intuitivamente la regresión de vectores de apoyo?

Todos los ejemplos de SVM están relacionados con la clasificación. No entiendo cómo un SVM para la regresión (regresor de vectores de apoyo) podría ser utilizado en la regresión.

Según tengo entendido, una SVM maximiza el margen entre dos clases para encontrar el hiperplano óptimo. ¿Cómo podría funcionar esto en un problema de regresión?

19voto

Matt Baker Puntos 1776

En resumen: La maximización del margen puede considerarse de forma más general como la regularización de la solución minimizando $w$ (que es esencialmente minimizar la complejidad del modelo) esto se hace tanto en la clasificación como en la regresión. Pero en el caso de la clasificación esta minimización se hace bajo la condición de que todos los ejemplos se clasifiquen correctamente y en el caso de la regresión bajo la condición de que el valor $y$ de todos los ejemplos se desvía menos de la precisión requerida $\epsilon$ de $f(x)$ para la regresión.


Para entender cómo se pasa de la clasificación a la regresión ayuda ver cómo en ambos casos se aplica la misma teoría SVM para formular el problema como un problema de optimización convexo. Voy a tratar de poner ambos lado a lado.

(Ignoraré las variables de holgura que permiten clasificaciones erróneas y desviaciones por encima de la precisión $\epsilon$ )

Clasificación

En este caso el objetivo es encontrar una función $f(x)= wx +b$ donde $f(x) \geq 1$ para los ejemplos positivos y $f(x) \leq -1$ para los ejemplos negativos. En estas condiciones queremos maximizar el margen (distancia entre las 2 barras rojas) que no es más que minimizar la derivada de $f'=w$ .

La intuición detrás de maximizar el margen es que esto nos dará una solución única al problema de encontrar $f(x)$ (es decir, descartamos por ejemplo la línea azul) y también que esta solución es la más general en estas condiciones, es decir, actúa como regularización . Esto puede verse como, alrededor del límite de decisión (donde se cruzan las líneas rojas y negras) la incertidumbre de clasificación es la mayor y la elección del valor más bajo para $f(x)$ en esta región dará la solución más general.

enter image description here

Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange no nulos de la parte de igualdad de las condiciones de desigualdad $f(x) \geq 1$ y $f(x) \leq -1$

Regresión

En este caso el objetivo es encontrar una función $f(x)= wx +b$ (línea roja) bajo la condición de que $f(x)$ está dentro de una precisión requerida $\epsilon$ a partir del valor $y(x)$ (barras negras) de cada punto de datos, es decir $|y(x) -f(x)|\leq \epsilon$ donde $epsilon$ es la distancia entre la línea roja y la gris. Con esta condición, también queremos minimizar $f'(x)=w$ , de nuevo por la razón de la regularización y para obtener una solución única como resultado del problema de optimización convexa. Se puede ver cómo la minimización de $w$ resulta en un caso más general ya que el valor extremo de $w=0$ significaría que no hay ninguna relación funcional, que es el resultado más general que se puede obtener de los datos.

enter image description here

Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange no nulos de la parte de igualdad de la condición de desigualdad $|y -f(x)|\leq \epsilon$ .

Conclusión

En ambos casos se produce el siguiente problema:

$$ \text{min} \frac{1}{2}w^2 $$

Con la condición de que:

  • Todos los ejemplos se clasifican correctamente (Clasificación)
  • El valor $y$ de todos los ejemplos se desvía menos de $\epsilon$ de $f(x)$ . (Regresión)

1voto

Squagem Puntos 134

En SVM para el problema de clasificación, en realidad tratamos de separar la clase lo más lejos posible de la línea de separación (Hiperplano) y a diferencia de la regresión logística, creamos un límite de seguridad desde ambos lados del hiperplano (la diferencia entre la regresión logística y la clasificación SVM está en su función de pérdida). Finalmente, al tener separados diferentes puntos de datos lo más lejos posible del hiperplano.

En la SVM para el problema de regresión, queremos ajustar un modelo para predecir una cantidad para el futuro. Por lo tanto, queremos que el punto de datos (observación) sea lo más cercano posible al hiperplano a diferencia de SVM para la clasificación. La regresión SVM heredó de la regresión simple como (Ordinary Least Square) por esta diferencia que definimos un rango de épsilon de ambos lados del hiperplano para hacer la función de regresión insensible al error a diferencia de SVM para la clasificación que definimos un límite para ser seguro para tomar la decisión futura (predicción). Finalmente, SVM en la regresión tiene un límite como SVM en la clasificación, pero el límite para la regresión es para hacer la función de regresión insensible respecto al error, pero el límite para la clasificación es sólo para ser muy lejos de hiperplano (límite de decisión) para distinguir entre la clase para el futuro (es por eso que lo llamamos margen de seguridad).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X