13 votos

La comprensión de la SVM de regresión: la función objetivo y la "planitud"

SVMs para la clasificación de hacer sentido intuitivo para mí: no puedo entender cómo minimizar $||\theta||^2$ se obtiene el margen máximo. Sin embargo, no entiendo que el objetivo en el contexto de la regresión. Varios textos (aquí y aquí) describir esto como la maximización de la "planitud." ¿Por qué queremos hacerlo? Lo que en la regresión es el equivalente al concepto de "margen"?

Aquí están un par de intentos de respuestas, pero ninguno de ellos realmente ayudaron a mi comprensión.

12voto

Akira Puntos 1061

Una manera en que pienso acerca de la planitud es que hace que mis predicciones son menos sensibles a las perturbaciones en las funciones. Es decir, si yo soy la construcción de un modelo de la forma $$y = x^\top \theta + \epsilon,$$ donde mi función vectorial $x$ ya se ha normalizado, a continuación, los valores más pequeños en $\theta$ significa que mi modelo es menos sensible a errores en la medición/impactos aleatorios/no-estacionariedad de las características, $x$. Dados dos modelos (es decir, dos posibles valores de $\theta$) que explique los datos igual de bien, yo prefiero el 'adular'.

También se puede pensar de Regresión Ridge como realizar la misma cosa sin el núcleo del truco o de la SVM 'tubo' de regresión de la formulación.

edit: En respuesta a @Yang comentarios, algunos más explicación:

  1. Considere el caso lineal: $y = x^\top \theta + \epsilon$. Supongamos que el $x$ son atraídos yo.yo.d. de algunos de distribución, independiente de $\theta$. Por el punto de la identidad del producto, tenemos $y = ||x|| ||\theta|| \cos\psi + \epsilon$ donde $\psi$ es el ángulo entre el$\theta$$x$, lo que probablemente es distribuido bajo algunos esférica de la distribución uniforme. Ahora nota: el "spread" (por ejemplo, la desviación estándar de la muestra) de nuestras predicciones de $y$ es proporcional a $||\theta||$. Para obtener buenos MSE con el latente, silencioso versiones de nuestras observaciones, queremos reducir ese $||\theta||$. c.f. James Stein estimador.
  2. Considere el caso lineal con un montón de características. Considerar los modelos de $y = x^\top \theta_1 + \epsilon$, e $y = x^\top \theta_2 + \epsilon$. Si $\theta_1$ tiene más de cero elementos de $\theta_2$, pero sobre el mismo poder explicativo, preferimos, base sobre la navaja de Occam, ya que tiene dependencias en un menor número de variables (es decir, que hemos "hecho selección de la función de' mediante el establecimiento de algunos elementos de $\theta_1$ a cero). El plano es una especie de continuo versión de este argumento. Si cada marginales de $x$ tiene unidad de desviación estándar, y $\theta_1$, por ejemplo, 2 elementos que son de 10, y el resto de $n-2$ son menor de 0.0001, dependiendo de su tolerancia de ruido, este es, efectivamente, 'selección' de las dos características, y la reducción a cero de las restantes.
  3. Cuando el núcleo truco es empleado, se realiza una regresión lineal en un alto (a veces infinito) dimensiones de espacio vectorial. Cada elemento de a $\theta$ ahora corresponde a uno de sus muestras, no sus características. Si $k$ elementos de $\theta$ son no-cero, y el resto de $m-k$ son cero, las funciones correspondientes a la $k$ cero los elementos de la $\theta$ se llama el apoyo de vectores". Para almacenar su SVM modelo, por ejemplo en el disco, sólo es necesario mantener los $k$ función de los vectores, y se puede tirar el resto de ellos. Ahora planitud realmente importa, porque habiendo $k$ pequeño reduce el almacenamiento y la transmisión, etc, requisitos. De nuevo, dependiendo de su tolerancia al ruido, probablemente, usted puede poner en cero todos los elementos de a$\theta$, pero el $l$ más grande, para algunos $l$, después de realizar una SVM de regresión. Planitud aquí es equivalente a la parsimonia con respecto al número de vectores de soporte.

3voto

oloopy Puntos 11

shabbychef dio una explicación muy clara desde la perspectiva de la complejidad del modelo. Voy a tratar de entender este problema desde otro punto de vista en caso de que pueda ayudar a alguien.

Básicamente lo que queremos es maximizar el margen de SVC. Este es el mismo en RVS, mientras que lo que queremos es maximizar el error de predicción en una precisión definida $e$ para una mejor generalización. Aquí si podemos minimizar el error de predicción en lugar de maximizar la predicción de resultados en datos desconocidos es más probable que se overfitted. Pensemos en la "maximizar el error de predicción" en el caso unidimensional.

En el caso unidimensional, nuestro objetivo es maximizar las distancias de todos los puntos de $(x_i,y_i)$ a la línea de tendencia $y=\omega x+b$ dentro $e$. Tenga en cuenta que podemos configurar el restringir de precisión como $e$, de modo que podemos maximizar la distancia, no minimizar. A continuación, echemos un vistazo a la ecuación muy simple de la distancia de un punto a una recta.

$$ \frac{\left|\omega x_i-y_i+b\right|}{\sqrt {\omega^2+1}} $$

Ahora el numerador se limita a $e$. Para maximizar la distancia, lo que tratamos de hacer es minimizar $\omega$.

Cualquier persona puede extender fácilmente al caso unidimensional a N-dimensional caso como la ecuación de la distancia siempre será la distancia Euclídea.

Además, se puede tener una revisión sobre el problema de optimización en SVR para la comparación [1].

$$ \min \frac{1}{2} {\left| \left| \omega \right| \right|}^2 $$ $$ s.t. \begin{cases}y_i-<\omega,x_i>-b \leq e\\<\omega,x_i>+b-y_i \geq e\end{casos} $$

Gracias.

[1] Smola, A. y B. Schölkopf. Un tutorial sobre la regresión de vectores soporte. Estadística e Informática, Vol. 14, Nº 3, Agosto. 2004, pp 199-222.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X