4 votos

Hyperplanes y Máquinas de Soporte Vectorial

Tengo la siguiente pregunta con respecto a máquinas de vectores soporte: por Lo que se dan una serie de puntos de entrenamiento $\{x_i\}$ y un conjunto de binarios etiquetas de $\{y_i\}$.

Ahora por lo general el hyperplane la clasificación de los puntos se define como:

$ w*x + b = 0 $

Primera pregunta: Aquí $x$ no denota los puntos del conjunto de entrenamiento, pero los puntos de la separación de (hiper)plano, a la derecha?

En un siguiente paso, los apuntes de clase del estado que la función:

$f(x) = sign\ (w*x + b)$

clasificar correctamente los datos de entrenamiento.
Segunda pregunta: Ahora no entiendo por que, ya se dijo anteriormente que el $ w*x + b = 0 $, así que ¿cómo puede algo que se define a ser cero tiene un signo?

Dos preguntas adicionales:

(1) ha añadido que una variable de holgura puede ser introducido para no linealmente separables de datos - ¿cómo sabemos que los datos no son linealmente separables, como tengo entendido la asignación a través del núcleo tiene como propósito asignar los datos en un espacio vectorial, donde en el caso óptimo sería linealmente separables (y por qué no con un no-lineal de la función discriminante en conjunto en lugar de introducir una variable de holgura?)

(2) he visto que para la optimización de sólo una de las desigualdades $w*x = b \geqslant 1$ está siendo utilizado como un lineal restringida - ¿por qué?

3voto

kent Puntos 1

Sugiero estudiar a fondo un muy perspicaz tutorial sobre Máquinas de Vectores Soporte para el Reconocimiento de patrones debido a la C. Burges. No es primaria, sino que da información importante acerca de los SV de aprendizaje. Realmente me ayudó a mí como un principiante!

Respecto a su primera pregunta. $\mathcal{H}\colon\mathbf{w}\cdot\mathcal{x}+b=0$ describe el lugar geométrico de los puntos pertenecientes a hyperplane $\mathcal{H}$. $\mathbf{x}$ denota un vector arbitrario en el espacio de entrada, es decir, el espacio donde sus muestras de formación (es decir,$\mathbf{x}_i$, $i=1,\ldots,l$) vivir. A menudo esto es un subconjunto de a $\mathbb{R}^n$.

En cuanto a tu segunda pregunta, dado que usted ha aprendido algunas separar hyperplane, $\mathcal{H}\colon\mathbf{w}\cdot\mathcal{x}+b=0$ (y esto es exactamente lo que un lineal SVM), entonces se dan algunos invisible (es decir, una nueva, sin la verdad de la etiqueta) datum $\mathbf{x}_t$, usted tiene que clasificar a algunos de la clase, dándole una verdad etiqueta $y_t\in\{\pm1\}$. La forma de hacerlo es mediante la comprobación de la señal de la decisión de la función $f(\mathbf{x})=\mathbf{w}\cdot\mathcal{x}+b$, que es, $y_t=\operatorname{sgn}(f(\mathbf{x}_t))$. $\operatorname{sgn}(f(\mathbf{x}_t))>0$ significa que el dato es "por encima" de la separación de hyperplane y por lo tanto tiene que ser clasificado como positivo, mientras que el $\operatorname{sgn}(f(\mathbf{x}_t))<0$ significa que el dato es "bajo" de la separación de hyperplane y por lo tanto tiene que ser clasificados como negativos. Si $\operatorname{sgn}(f(\mathbf{x}_t))=0$ significa que la prueba de la muestra pertenece a la separación de hyperplane, y por lo tanto no puede haber alguna decisión acerca de su verdad etiqueta.

Tenga en cuenta que si $-1<f(\mathbf{x}_t)<+1$, la prueba de referencia se encuentra dentro de la denominada margen de la clasificador (echa un vistazo al tutorial de arriba para más información).

EDITAR

Me gustaría añadir algunos comentarios a continuación, motivada por el debate entre @Pegah y a mí en los comentarios.

Supongo que porque en otros contextos los vectores $\mathbf{x}$ en el la ecuación para hyperplanes se refieren a los puntos de la hyperplane, pero aquí $\mathbf{x}$ se refieren a la entrada de vectores que no están necesariamente en ella, que me parecía ambiguo.

Esto no es correcto, en realidad. $\mathbf{x}\in\mathbb{R}^n$ se refiere a cualquier punto en la distancia Euclídea $n$espacio tridimensional. Ahora, si y sólo si un punto pertenece a la hyperplane $\mathcal{H}$, cumple con la ecuación de $\mathbf{w}\cdot\mathcal{x}+b=0$. En otras palabras, la hyperplane $\mathcal{H}$ es el locus de la $n$-dimensiones de puntos que satisfacen $\mathbf{w}\cdot\mathcal{x}+b=0$. Para todo otro punto que debe sostener que $\mathbf{w}\cdot\mathcal{x}+b>0$ o $\mathbf{w}\cdot\mathcal{x}+b<0$.

Tengo otra pregunta, aunque si no te importa: yo no entiendo que podemos etiquetar nuevos vectores de entrada con $-1$$+1$, pero ¿por qué (como en el script vinculado por usted) asumimos que $\mathbf{w}\cdot\mathcal{x}+b\leq-1$ y $\mathbf{w}\cdot\mathcal{x}+b\geq+1$ respectivamente? No veo que explicó en cualquier lugar, y me preguntaba por qué no podía ser una e $-a$ para algunos $a\in\mathbb{R}$. Se trata simplemente de escala (y por lo tanto ambos lados de la desigualdad a escala, es decir, dividido por $a$?).

Las anteriores desigualdades son nuestras limitaciones para el estado que los datos de entrenamiento son linealmente separables, lo cual-obviamente - es muy estricta y el grueso de la asunción. Esto conduce a lo que se llama duro margen de la SVM, que es en la forma de la hyperplane $\mathcal{H}$. Tenga en cuenta que usted nunca va a alcanzar a llegar a un hyperplane si los datos de entrenamiento no son linealmente-sparable, ya que la función objetivo de la duro-al margen de SVM (es decir, el doble de Lagrange) va a crecer arbitrariamente grande. Entonces, usted necesita para relajarse estas limitaciones mediante la introducción de las variables de holgura $\xi_i$ que permiten a los datos de entrenamiento para ser no-linealmente separables. la razón por la que hay $+1$, $-1$'s aquí es el hecho que hay una normalización de la norma de $\mathbf{w}$.


Respecto a tus dos preguntas adicionales:

(1) ha añadido que una variable de holgura puede ser introducido para no linealmente separables de datos - ¿cómo sabemos que los datos no linealmente separables, como tengo entendido la asignación a través del núcleo ha como propósito asignar los datos en un espacio vectorial, donde en el óptimo caso sería linealmente separables (y por qué no con un no-lineal la función discriminante en conjunto en lugar de introducir un margen de variable?)

Primero de todo, usted no sabe a priori que sus datos son linealmente separables (en su espacio de entrada). Es razonable, sin embargo, que usted quiere resolver el problema en ambos casos. Vamos a introducir las variables de holgura de tal manera que un entrenamiento de la muestra puede entrar en la clase equivocada, contribuyendo de esta manera a la pérdida total. Lo que deseo es minimizar esta pérdida total. Para ser más específicos, vamos a $\xi_i\geq0$ ser las mencionadas variables de holgura. Al $0\leq\xi_i<1$, entonces la muestra se encuentra en el margen, pero aún no está mal clasificadas. Si $\xi_i=1$, a continuación, la muestra se encuentra en el contorno (todavía no se ha clasificado erróneamente). Sin embargo, si $\xi_i>1$, entonces la muestra se encuentra en la clase equivocada. En todos los casos anteriores (es decir, cuando sostiene que $\xi_i>0$) hay un error, el cual debe ser medido (y minimizado!). Medimos el error total sumando todas las $\xi$'s de las distancias, que es, $C\sum_{i}\xi_i$. $C$ es un usuario especificado por el parámetro positivo (mayor $C$ correspondiente a la asignación de una pena superior en grado a los errores).

Ahora, ¿qué acerca de los kernels? Utilizamos un kernel ya sabemos que al ir a la función de espacio (es decir, el espacio donde el núcleo de los mapas de nuestro espacio de entrada) es muy probable que nuestros datos se convierte linealmente separables. Luego seguimos nuestro método lineal para clasificarlos (linealmente!). ¿Qué es lineal en el espacio de características no lineales en el original espacio de entrada (concedido que el kernel no es el lineal kernel $k(\mathbf{x},\mathbf{x}')=\mathbf{x}\cdot\mathbf{x}'$). Cuando regresamos al espacio de entrada, la decisión de la función que hemos encontrado en el espacio de características no lineales.

(2) he visto que para la optimización de sólo una de las desigualdades $w*x = b \geqslant 1$ está siendo utilizado como un lineal restringida - ¿por qué?

Esto no podía ser cierto... Las restricciones son aún $y_i(\mathbf{w}\cdot\mathbf{x}_i+b)+\xi_i\geq1$, $\forall i$

1voto

Joel Bosveld Puntos 662

Para la primera ecuación, $w\cdot x+b=0$, $w$ es la dirección normal (ortogonal/perpendicular) a la hyperplane. Estás en lo correcto de que el $x$ (que satisface esta ecuación) son los puntos en los hyperplane.

En la segunda ecuación, la $x$ son la formación (o test) de datos. Estos no deben tumbarse en el hyperplane, donde $f(x)=0$, pero deben estar en cualquiera de los lados de la hyperplane - ya que, por construcción, el hyperplane separa las dos clases.

Los puntos que se encuentren en el hyperplane, donde $f(x)=0$, no será capaz de clasificar.

1voto

James Puntos 725

Para responder a ambas preguntas a la vez: El conjunto de $\{x \in \mathbb R^n \mid w'x+b=0\}$ define la separación de hyperplane. Este hyperplane separa el espacio de $\mathbb R^n$ en dos halfspaces $H_+ = \{x \in \mathbb R^n \mid w'x+b>0\}$$H_- = \{x \in \mathbb R^n \mid w'x+b<0\}$.

Así, por un desconocido ejemplo, $x$ computing $f(x)= sign(w'x+b)$ dice que halfspace (definido por el hyperplane) el ejemplo se encuentra en y, por tanto, que la etiqueta debe ser asignado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X