Sugiero estudiar a fondo un muy perspicaz tutorial sobre Máquinas de Vectores Soporte para el Reconocimiento de patrones debido a la C. Burges. No es primaria, sino que da información importante acerca de los SV de aprendizaje. Realmente me ayudó a mí como un principiante!
Respecto a su primera pregunta. $\mathcal{H}\colon\mathbf{w}\cdot\mathcal{x}+b=0$ describe el lugar geométrico de los puntos pertenecientes a hyperplane $\mathcal{H}$. $\mathbf{x}$ denota un vector arbitrario en el espacio de entrada, es decir, el espacio donde sus muestras de formación (es decir,$\mathbf{x}_i$, $i=1,\ldots,l$) vivir. A menudo esto es un subconjunto de a $\mathbb{R}^n$.
En cuanto a tu segunda pregunta, dado que usted ha aprendido algunas separar hyperplane, $\mathcal{H}\colon\mathbf{w}\cdot\mathcal{x}+b=0$ (y esto es exactamente lo que un lineal SVM), entonces se dan algunos invisible (es decir, una nueva, sin la verdad de la etiqueta) datum $\mathbf{x}_t$, usted tiene que clasificar a algunos de la clase, dándole una verdad etiqueta $y_t\in\{\pm1\}$. La forma de hacerlo es mediante la comprobación de la señal de la decisión de la función $f(\mathbf{x})=\mathbf{w}\cdot\mathcal{x}+b$, que es, $y_t=\operatorname{sgn}(f(\mathbf{x}_t))$. $\operatorname{sgn}(f(\mathbf{x}_t))>0$ significa que el dato es "por encima" de la separación de hyperplane y por lo tanto tiene que ser clasificado como positivo, mientras que el $\operatorname{sgn}(f(\mathbf{x}_t))<0$ significa que el dato es "bajo" de la separación de hyperplane y por lo tanto tiene que ser clasificados como negativos. Si $\operatorname{sgn}(f(\mathbf{x}_t))=0$ significa que la prueba de la muestra pertenece a la separación de hyperplane, y por lo tanto no puede haber alguna decisión acerca de su verdad etiqueta.
Tenga en cuenta que si $-1<f(\mathbf{x}_t)<+1$, la prueba de referencia se encuentra dentro de la denominada margen de la clasificador (echa un vistazo al tutorial de arriba para más información).
EDITAR
Me gustaría añadir algunos comentarios a continuación, motivada por el debate entre @Pegah y a mí en los comentarios.
Supongo que porque en otros contextos los vectores $\mathbf{x}$ en el
la ecuación para hyperplanes se refieren a los puntos de la hyperplane, pero
aquí $\mathbf{x}$ se refieren a la entrada de vectores que no están necesariamente en
ella, que me parecía ambiguo.
Esto no es correcto, en realidad. $\mathbf{x}\in\mathbb{R}^n$ se refiere a cualquier punto en la distancia Euclídea $n$espacio tridimensional. Ahora, si y sólo si un punto pertenece a la hyperplane $\mathcal{H}$, cumple con la ecuación de $\mathbf{w}\cdot\mathcal{x}+b=0$. En otras palabras, la hyperplane $\mathcal{H}$ es el locus de la $n$-dimensiones de puntos que satisfacen $\mathbf{w}\cdot\mathcal{x}+b=0$. Para todo otro punto que debe sostener que $\mathbf{w}\cdot\mathcal{x}+b>0$ o $\mathbf{w}\cdot\mathcal{x}+b<0$.
Tengo otra pregunta, aunque si no te importa: yo no entiendo que
podemos etiquetar nuevos vectores de entrada con $-1$$+1$, pero ¿por qué (como en el
script vinculado por usted) asumimos que
$\mathbf{w}\cdot\mathcal{x}+b\leq-1$ y
$\mathbf{w}\cdot\mathcal{x}+b\geq+1$ respectivamente? No veo que
explicó en cualquier lugar, y me preguntaba por qué no podía ser una e $-a$
para algunos $a\in\mathbb{R}$. Se trata simplemente de escala (y por lo tanto ambos
lados de la desigualdad a escala, es decir, dividido por $a$?).
Las anteriores desigualdades son nuestras limitaciones para el estado que los datos de entrenamiento son linealmente separables, lo cual-obviamente - es muy estricta y el grueso de la asunción. Esto conduce a lo que se llama duro margen de la SVM, que es en la forma de la hyperplane $\mathcal{H}$. Tenga en cuenta que usted nunca va a alcanzar a llegar a un hyperplane si los datos de entrenamiento no son linealmente-sparable, ya que la función objetivo de la duro-al margen de SVM (es decir, el doble de Lagrange) va a crecer arbitrariamente grande. Entonces, usted necesita para relajarse estas limitaciones mediante la introducción de las variables de holgura $\xi_i$ que permiten a los datos de entrenamiento para ser no-linealmente separables. la razón por la que hay $+1$, $-1$'s aquí es el hecho que hay una normalización de la norma de $\mathbf{w}$.
Respecto a tus dos preguntas adicionales:
(1) ha añadido que una variable de holgura puede ser introducido para
no linealmente separables de datos - ¿cómo sabemos que los datos no
linealmente separables, como tengo entendido la asignación a través del núcleo ha
como propósito asignar los datos en un espacio vectorial, donde en el óptimo
caso sería linealmente separables (y por qué no con un no-lineal
la función discriminante en conjunto en lugar de introducir un margen de
variable?)
Primero de todo, usted no sabe a priori que sus datos son linealmente separables (en su espacio de entrada). Es razonable, sin embargo, que usted quiere resolver el problema en ambos casos. Vamos a introducir las variables de holgura de tal manera que un entrenamiento de la muestra puede entrar en la clase equivocada, contribuyendo de esta manera a la pérdida total. Lo que deseo es minimizar esta pérdida total. Para ser más específicos, vamos a $\xi_i\geq0$ ser las mencionadas variables de holgura. Al $0\leq\xi_i<1$, entonces la muestra se encuentra en el margen, pero aún no está mal clasificadas. Si $\xi_i=1$, a continuación, la muestra se encuentra en el contorno (todavía no se ha clasificado erróneamente). Sin embargo, si $\xi_i>1$, entonces la muestra se encuentra en la clase equivocada. En todos los casos anteriores (es decir, cuando sostiene que $\xi_i>0$) hay un error, el cual debe ser medido (y minimizado!). Medimos el error total sumando todas las $\xi$'s de las distancias, que es, $C\sum_{i}\xi_i$. $C$ es un usuario especificado por el parámetro positivo (mayor $C$ correspondiente a la asignación de una pena superior en grado a los errores).
Ahora, ¿qué acerca de los kernels? Utilizamos un kernel ya sabemos que al ir a la función de espacio (es decir, el espacio donde el núcleo de los mapas de nuestro espacio de entrada) es muy probable que nuestros datos se convierte linealmente separables. Luego seguimos nuestro método lineal para clasificarlos (linealmente!). ¿Qué es lineal en el espacio de características no lineales en el original espacio de entrada (concedido que el kernel no es el lineal kernel $k(\mathbf{x},\mathbf{x}')=\mathbf{x}\cdot\mathbf{x}'$). Cuando regresamos al espacio de entrada, la decisión de la función que hemos encontrado en el espacio de características no lineales.
(2) he visto que para la optimización de sólo una de las desigualdades
$w*x = b \geqslant 1$ está siendo utilizado como un lineal restringida - ¿por qué?
Esto no podía ser cierto... Las restricciones son aún $y_i(\mathbf{w}\cdot\mathbf{x}_i+b)+\xi_i\geq1$, $\forall i$