shabbychef dio una explicación muy clara desde la perspectiva de la complejidad del modelo. Voy a tratar de entender este problema desde otro punto de vista en caso de que pueda ayudar a alguien.
Básicamente lo que queremos es maximizar el margen de SVC. Este es el mismo en RVS, mientras que lo que queremos es maximizar el error de predicción en una precisión definida $e$ para una mejor generalización. Aquí si podemos minimizar el error de predicción en lugar de maximizar la predicción de resultados en datos desconocidos es más probable que se overfitted. Pensemos en la "maximizar el error de predicción" en el caso unidimensional.
En el caso unidimensional, nuestro objetivo es maximizar las distancias de todos los puntos de $(x_i,y_i)$ a la línea de tendencia $y=\omega x+b$ dentro $e$. Tenga en cuenta que podemos configurar el restringir de precisión como $e$, de modo que podemos maximizar la distancia, no minimizar. A continuación, echemos un vistazo a la ecuación muy simple de la distancia de un punto a una recta.
$$
\frac{\left|\omega x_i-y_i+b\right|}{\sqrt {\omega^2+1}}
$$
Ahora el numerador se limita a $e$. Para maximizar la distancia, lo que tratamos de hacer es minimizar $\omega$.
Cualquier persona puede extender fácilmente al caso unidimensional a N-dimensional caso como la ecuación de la distancia siempre será la distancia Euclídea.
Además, se puede tener una revisión sobre el problema de optimización en SVR para la comparación [1].
$$
\min \frac{1}{2} {\left| \left| \omega \right| \right|}^2
$$
$$
s.t. \begin{cases}y_i-<\omega,x_i>-b \leq e\\<\omega,x_i>+b-y_i \geq e\end{casos}
$$
Gracias.
[1] Smola, A. y B. Schölkopf. Un tutorial sobre la regresión de vectores soporte. Estadística e Informática, Vol. 14, Nº 3, Agosto. 2004, pp 199-222.