Tengo un problema de 2 clases en el que intervienen muchas características. ¿Un clasificador lineal de máquina de vectores soporte (SVM) sólo tiene en cuenta los valores de estas características y nada más? ¿Ve las relaciones entre las variables? Por ejemplo, ¿funciona así: si la característica número 80 es "0", entonces la característica 2: tiene que ser superior a 0,2 para la clase 1 y si la característica número 80 es "1", entonces la característica 2: tiene que ser superior a 0,8 para estar en la clase 1? ¿Lo hace con muchas variables a la vez, y los valores de otras variables influyen en cómo la SVM se ve influida por otras variables?
Respuesta
¿Demasiados anuncios?Son buenas preguntas. Las máquinas de vector soporte lineal buscan el hiperplano de separación lineal en los datos. Las características de ese plano tienen mucho que ver con el número de características de su problema de clasificación, así como con el enfoque que esté utilizando para modelar las características (por ejemplo, binario o frecuencia de términos/frecuencia inversa de documentos, también conocido como tf-idf). Puede que le ayude repasar algunos fundamentos de SVM. Para ello, he encontrado " Guía práctica para la clasificación con máquinas de vectores soporte " para ser una referencia destacada. Dicho esto, la SVM utiliza todas las características que se le dan, pero no está necesariamente influida por igual por todas las características. Por ejemplo, en la clasificación de textos, en la que suelen intervenir millones de características, según mi experiencia, las características menos informativas, como la presencia o ausencia de una palabra muy común, no tienen tanta influencia como una palabra menos común que tiende a asociarse con una clase concreta.