SVM para datos desequilibrados

Question

SVM para datos desequilibrados

Preguntado el 18 de Abril, 2014: Cuando se hizo la pregunta
30560 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Quiero intentar utilizar máquinas de vectores soporte (SVM) en mi conjunto de datos. Sin embargo, antes de intentar el problema, me advirtieron de que las SVM no funcionan bien con datos muy desequilibrados. En mi caso, puedo tener hasta un 95-98% de 0 y un 2-5% de 1.

Traté de encontrar recursos que hablaran sobre el uso de SVM en datos dispersos/no equilibrados, pero todo lo que pude encontrar fue 'sparseSVMs' (que utilizan una pequeña cantidad de vectores de soporte).

Esperaba que alguien me lo pudiera explicar brevemente:

Qué tal funcionaría SVM con un conjunto de datos de este tipo
¿Qué modificaciones, en su caso, deben introducirse en el algoritmo SVM?
¿Qué recursos/documentos tratan este tema?

Preguntado el 18 de Abril, 2014 por maxp

Answer 1

3 Respuestas

Answer 2

18voto

Bitwise Puntos 3141

Muchas implementaciones de SVM abordan este problema asignando diferentes pesos a las instancias positivas y negativas. Básicamente, se pesan las muestras de forma que la suma de los pesos de las positivas sea igual a la de las negativas. Por supuesto, en su evaluación de la SVM tiene que recordar que si el 95% de los datos son negativos, es trivial obtener una precisión del 95% prediciendo siempre negativo. Así que tienes que asegurarte de que tus métricas de evaluación también están ponderadas para que estén equilibradas.

Concretamente en libsvm que has añadido como etiqueta, hay una bandera que te permite establecer los pesos de las clases ( -w Creo, pero compruebe el docs ).

Por último, por experiencia personal puedo decirle que a menudo encuentro que una SVM dará resultados muy similares con o sin la corrección del peso.

Respondido el 18 de Abril, 2014 por Bitwise (3141 Puntos )

Answer 3

8voto

Marc Claesen Puntos 9818

Las SVM funcionan bien con datos dispersos y desequilibrados. La SVM ponderada por clase está diseñada para tratar datos desequilibrados asignando mayores penalizaciones por clasificación errónea a las instancias de entrenamiento de la clase minoritaria.

Respondido el 18 de Abril, 2014 por Marc Claesen (9818 Puntos )

Answer 4

5voto

Frederic Close Puntos 121

En el caso de datos dispersos como esos, SVM funcionará bien.

Como dice @Bitwise, no se debe utilizar la precisión para medir el rendimiento del algoritmo.

En su lugar, debe calcular el precisión, recall y Puntuación F del algoritmo.

Respondido el 25 de Abril, 2014 por Frederic Close (121 Puntos )

SVM para datos desequilibrados

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

SVM para datos desequilibrados

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: