12 votos

La relación entre el número de vectores de soporte y el número de características

Ejecuté un SVM contra un conjunto de datos dado, e hice la siguiente observación: Si cambio el número de características para construir el clasificador, el número de vectores de soporte resultantes también se cambiará.

Me gustaría saber cómo explicar este tipo de escenario.

0 votos

¿Qué tipo y estilo tenían esos extras? ¿Eran variantes parecidas de los elementos existentes o elementos más novedosos que, en su opinión, podían tener un poder de resolución adicional?

0 votos

Se trata de un problema de clasificación de documentos, y las características adicionales son sólo palabras. Utilicé unigrama para construir el espacio de características.

0 votos

Dada la respuesta de @marc, ¿cuál fue el cambio, aumentó el número de vectores con el número de características, o al revés.

14voto

Seba Puntos 16

Si nos fijamos en el problema de optimización que SVM resuelve:

$\min_{\mathbf{w},\mathbf{\xi}, b } \left\{\frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i \right\}$

s.t $y_i(\mathbf{w}\cdot\mathbf{x_i} - b) \ge 1 - \xi_i, ~~~~\xi_i \ge 0,$ para todos $ i=1,\dots n$

los vectores de apoyo son los siguientes $x_i$ donde la correspondiente $\xi_i \gt 0$ . En otras palabras, son los puntos de datos que están mal clasificados o cerca del límite.

Ahora comparemos la solución a este problema cuando se tiene un conjunto completo de características, con el caso en el que se desechan algunas características. Desechar una característica es funcionalmente equivalente a mantener la característica, pero añadiendo una restricción $w_j=0$ para la función $j$ que queremos descartar.

Cuando se comparan estos dos problemas de optimización y se realizan los cálculos matemáticos, resulta que no existe una relación directa entre el número de características y el número de vectores de soporte. Podría ir en cualquier dirección.

Es útil pensar en un caso sencillo. Imagine un caso de 2 dimensiones en el que sus características negativas y positivas se agrupan en torno a (-1,-1) y (1,1), respectivamente, y son separables con un hiperplano de separación diagonal con 3 vectores de soporte. Ahora imagine que elimina la característica del eje y, de modo que sus datos se proyectan ahora sobre el eje x. Si los datos siguen siendo separables, digamos en x=0, probablemente se quedaría con sólo 2 vectores de soporte, uno a cada lado, por lo que añadir la característica y aumentaría el número de vectores de soporte. Sin embargo, si los datos ya no son separables, se obtendría al menos un vector de soporte para cada punto que esté en el lado equivocado de x=0, en cuyo caso añadir la característica y reduciría el número de vectores de soporte.

Por lo tanto, si esta intuición es correcta, si está trabajando en espacios de características de muy alta dimensión, o utilizando un núcleo que mapea a un espacio de características de alta dimensión, entonces sus datos son más propensos a ser separables, por lo que la adición de una característica tenderá a añadir otro vector de soporte. En cambio, si los datos no son separables y se añade una característica que mejore significativamente la separabilidad, es más probable que disminuya el número de vectores de soporte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X