3 votos

Normalizar las puntuaciones de salida para la clasificación binaria

Estoy manejando un clasificación binaria problema en un conjunto de datos desequilibrados .

El objetivo es crear un sistema capaz de insertar la puntuación devuelta (probabilidad de estar en la clase positiva) en un intervalo entre 1 y 10, donde 1 significa baja probabilidad para estar en la clase positiva y 10 alta probabilidad .

El principal problema es que sólo tengo el conjunto de datos de entrenamiento, por lo que no conozco ningún valor del conjunto de prueba. Además, las predicciones se harán de una en una, por lo que no puedo analizar la totalidad de los resultados de las pruebas.

He probado muchos modelos, pero en particular uso modelos basados en árboles (como XG-Boost, RF). En estos casos, teniendo en cuenta también el conjunto de datos desequilibrados, las puntuaciones de salida están en un rango muy pequeño, mucho menor que [0, 1]. Las puntuaciones son necesarias porque no quiero clasificar las instancias directamente en la clase 0-1, sino que quiero analizar las puntuaciones.

¿Cómo debo construir un método capaz de encontrar los diferentes umbrales para crear las 10 clases?

0voto

Sandesh Jain Puntos 111

Bien, si sus modelos producen probabilidades para la clase positiva y su límite de decisión es 0,5, es decir, p < 0,5 -> clase 0 y p >= 0,5 -> clase 1, entonces puede discretizar el intervalo de probabilidad de $[0.5, 1.)$ en 10 intervalos y asignar una clase para cada intervalo, por ejemplo $[0.5,0.55)$ => clase 1, $[0.55,0.6)$ => clase 2, ...

Ahora cada clase representa cierta confianza sobre la predicción positiva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X