18 votos

¿GBM clasificación sufren de desequilibrio en el tamaño de las clases?

Estoy tratando con un supervisada clasificación binaria problema. Me gustaría utilizar el GBM paquete para clasificar a los individuos como no infectados/infectados. Tengo 15 veces más infectados de individuos infectados.

Me preguntaba si GBM modelos de sufrir en el caso de desequilibrio en el tamaño de las clases? Yo no encuentro ninguna referencias responder a esta pregunta.

He intentado ajustar los pesos mediante la asignación de un peso de 1 para los individuos no infectados y un peso de 15 a los infectados, pero he obtenido buenos resultados.

5voto

Knbm Puntos 11

Creo que tus datos es similar a la Secom datos en los que he trabajado en el pasado y se enfrentó a muchas dificultades. Siguiente es lo que he intentado:

  • Diferentes técnicas de muestreo
  • Diferentes clasificadores como Bosque Aleatorio, ANN, GBM, el Conjunto de métodos, etc.

También he intentado 1-Class SVM que ha dado mejores resultados en comparación con otros como el de adaboost, Bosque Aleatorio. Usted puede tratar así.

Y puedo ver que te has hecho esta pregunta 1 año, así que si usted ha encontrado el mejor camino, entonces amablemente a publicar aquí para que yo pueda obtener la ayuda de él para obtener una mejor precisión.

4voto

ben Puntos 11

En mi experiencia, GBM de hecho sufren de desequilibrio en el tamaño de las clases. He tenido buen éxito con HIRIÓ de muestreo, que crea los datos sintéticos, mientras que la corrección de la clase minoritaria. Usted lo puede encontrar en la DMwR paquete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X