6 votos

Mejora de la precisión de una clasificación binaria cuando el objetivo está desequilibrado

Estoy trabajando en el BRFSS conjunto de datos con el objetivo de predecir la Diabetes. El conjunto de datos tiene 500.000 filas y 405 columnas. Es una 0/1 problema de clasificación, la proporción de 0 a 1 es de 90:10. He intentado utilizar árboles de decisión, la regresión logística es un conjunto de árboles de decisión y regresión logística y mi error en la clasificación de la tasa es de casi 14% en todos estos métodos.

  • ¿Qué debo hacer para aumentar la precisión?

Vi a un anterior post que dice submuestreo o asignar diferentes pesos de ayuda. Pero no estoy seguro acerca de la relación.

  • ¿Cuál sería la mejor relación para empezar?
  • Estoy trabajando utilizando SAS. Es allí una manera de hacer submuestreo en SAS?
  • Yo también estoy interesado en probar el promedio ponderado de enfoque. Hay una manera de implementar esto en SAS?

EDITAR (28 Apr 2011)

Traté de submuestreo y mi tasa de error en la clasificación va desde el 14% al 23%. La relación utilizada fue de 50:50 para las clases 0 y 1. El original de la relación de los datos fue de 90:10, y el uso de los datos como se dio el 14% de error. Entonces, yo creo que submuestreo no funciona para mi de datos. Sugeriría a cualquier otra forma de mejorar la precisión?

8voto

MOnsDaR Puntos 108

Si usted está utilizando el árbol de los métodos basados en, usted puede jugar con la división de criterio. Por ejemplo, en cada paso, elija la división que se da la más alta ponderado de precisión (el promedio de las dos clases de precisión).

Esto puede ser utilizado como la base para un bosque aleatorio demasiado, que debería darle un buen clasificador.

I una vez que se utiliza un proceso similar para aumentar la precisión, mientras que sacrificar el recuerdo. Funcionó muy bien (mejor que el umbral de las puntuaciones en el algoritmo de clasificación que eran muy ruidosos, de todos modos).

5voto

dan90266 Puntos 609

El problema es más con la elección de la exactitud de la regla de puntuación. Asegúrese de que el objetivo final es la clasificación frente a la predicción. La proporción correctamente clasificados es discontinua incorrecto regla de puntuación. Una mala puntuación es una regla que está optimizado por un falso modelo. Con una mala puntuación de la regla de cosas tales como la adición de un muy importante factor de predicción de decisiones el modelo menos precisa que puede suceder. El uso de registro de la probabilidad (o desviación) o la Ortiga cuadrática regla de puntuación será de ayuda. El índice de concordancia C (que pasa a ser igual al ROC de la zona, haciendo de ROCs aparecen más útil de lo que realmente son) es una medida útil de la predicción de la discriminación una vez que el modelo está finalizado.

4voto

Gulzar Nazim Puntos 35342

Con respecto a los árboles de decisión, sugeriría lo siguiente. Suponga que tiene 10 ejemplos de entrenamiento de la clase$C_1$ y 90 ejemplos de entrenamiento de la clase$C_2$. Puede usar un conjunto de árboles de decisión$N$, donde cada árbol está entrenado en 10 ejemplos de$C_1$ y 10 ejemplos seleccionados al azar de$C_2$. La decisión del conjunto puede ser el voto mayoritario. Puedes jugar con diferentes$N$ para ver cómo funciona.

0voto

pauly Puntos 932

Basado en la salida que compartió, el número máximo de ramas de un nodo se establece en 2. Es posible que aumentar ese límite le daría más opciones para las ramas, especialmente si SAS puede tomar variables continuas y dividirlas en categorías. Es un dreadgy de datos, pero ese es el juego en el que estamos, y mientras usted se valide, está en un sólido terreno moral :-)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X