Para construir una SVM-basado en el clasificador, tengo un conjunto de datos de entrenamiento consiste de N puntos de datos. Algunos de ellos son redundantes. Por ejemplo, se han de 50 puntos de datos que son exactamente el mismo, y hay otros 100 puntos de datos que son exactamente los mismos. Tengo dos opciones, eliminar la redundancia queridos y construir el conjunto de datos reducidos; mantener el conjunto de datos original. Será el resultante de clasificador ser diferente después de la aplicación de estas dos opciones diferentes?
Respuesta
¿Demasiados anuncios?Si usted está usando duro márgenes, no hay ninguna diferencia, porque la mejor margen es el mismo de cualquier manera.
Si usted está usando suave márgenes, a continuación, duplicar un punto de datos puede importar ya que la pena es una suma de puntos de datos en el margen, y la duplicación de estos puntos de datos afecta el tamaño de la pena.
Aquí se $1$-dimensiones fotos que muestran lo que podría ser el mejor soft-al margen de los clasificadores y sin duplicación.
$XXX~~~~~~~~~~X~|~~~~~~~~~~~OOOO$
$XXX~~~~~~XXX~~~~~|~~~~~OOOO$