6 votos

Con respecto a redundantes de datos de entrenamiento en la construcción de SVM-basado en el clasificador de

Para construir una SVM-basado en el clasificador, tengo un conjunto de datos de entrenamiento consiste de N puntos de datos. Algunos de ellos son redundantes. Por ejemplo, se han de 50 puntos de datos que son exactamente el mismo, y hay otros 100 puntos de datos que son exactamente los mismos. Tengo dos opciones, eliminar la redundancia queridos y construir el conjunto de datos reducidos; mantener el conjunto de datos original. Será el resultante de clasificador ser diferente después de la aplicación de estas dos opciones diferentes?

6voto

matt Puntos 11

Si usted está usando duro márgenes, no hay ninguna diferencia, porque la mejor margen es el mismo de cualquier manera.

Si usted está usando suave márgenes, a continuación, duplicar un punto de datos puede importar ya que la pena es una suma de puntos de datos en el margen, y la duplicación de estos puntos de datos afecta el tamaño de la pena.

Aquí se $1$-dimensiones fotos que muestran lo que podría ser el mejor soft-al margen de los clasificadores y sin duplicación.

$XXX~~~~~~~~~~X~|~~~~~~~~~~~OOOO$

$XXX~~~~~~XXX~~~~~|~~~~~OOOO$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X