Si nos fijamos en el problema de optimización que SVM resuelve:
$\min_{\mathbf{w},\mathbf{\xi}, b } \left\{\frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i \right\}$
s.t $y_i(\mathbf{w}\cdot\mathbf{x_i} - b) \ge 1 - \xi_i, ~~~~\xi_i \ge 0,$ para todos $ i=1,\dots n$
los vectores de apoyo son los siguientes $x_i$ donde la correspondiente $\xi_i \gt 0$ . En otras palabras, son los puntos de datos que están mal clasificados o cerca del límite.
Ahora comparemos la solución a este problema cuando se tiene un conjunto completo de características, con el caso en el que se desechan algunas características. Desechar una característica es funcionalmente equivalente a mantener la característica, pero añadiendo una restricción $w_j=0$ para la función $j$ que queremos descartar.
Cuando se comparan estos dos problemas de optimización y se realizan los cálculos matemáticos, resulta que no existe una relación directa entre el número de características y el número de vectores de soporte. Podría ir en cualquier dirección.
Es útil pensar en un caso sencillo. Imagine un caso de 2 dimensiones en el que sus características negativas y positivas se agrupan en torno a (-1,-1) y (1,1), respectivamente, y son separables con un hiperplano de separación diagonal con 3 vectores de soporte. Ahora imagine que elimina la característica del eje y, de modo que sus datos se proyectan ahora sobre el eje x. Si los datos siguen siendo separables, digamos en x=0, probablemente se quedaría con sólo 2 vectores de soporte, uno a cada lado, por lo que añadir la característica y aumentaría el número de vectores de soporte. Sin embargo, si los datos ya no son separables, se obtendría al menos un vector de soporte para cada punto que esté en el lado equivocado de x=0, en cuyo caso añadir la característica y reduciría el número de vectores de soporte.
Por lo tanto, si esta intuición es correcta, si está trabajando en espacios de características de muy alta dimensión, o utilizando un núcleo que mapea a un espacio de características de alta dimensión, entonces sus datos son más propensos a ser separables, por lo que la adición de una característica tenderá a añadir otro vector de soporte. En cambio, si los datos no son separables y se añade una característica que mejore significativamente la separabilidad, es más probable que disminuya el número de vectores de soporte.
0 votos
¿Qué tipo y estilo tenían esos extras? ¿Eran variantes parecidas de los elementos existentes o elementos más novedosos que, en su opinión, podían tener un poder de resolución adicional?
0 votos
Se trata de un problema de clasificación de documentos, y las características adicionales son sólo palabras. Utilicé unigrama para construir el espacio de características.
0 votos
Dada la respuesta de @marc, ¿cuál fue el cambio, aumentó el número de vectores con el número de características, o al revés.
0 votos
@Phillip, mi respuesta original estaba equivocada. Creo que la respuesta editada es correcta ahora.