Estoy manejando un clasificación binaria problema en un conjunto de datos desequilibrados .
El objetivo es crear un sistema capaz de insertar la puntuación devuelta (probabilidad de estar en la clase positiva) en un intervalo entre 1 y 10, donde 1 significa baja probabilidad para estar en la clase positiva y 10 alta probabilidad .
El principal problema es que sólo tengo el conjunto de datos de entrenamiento, por lo que no conozco ningún valor del conjunto de prueba. Además, las predicciones se harán de una en una, por lo que no puedo analizar la totalidad de los resultados de las pruebas.
He probado muchos modelos, pero en particular uso modelos basados en árboles (como XG-Boost, RF). En estos casos, teniendo en cuenta también el conjunto de datos desequilibrados, las puntuaciones de salida están en un rango muy pequeño, mucho menor que [0, 1]. Las puntuaciones son necesarias porque no quiero clasificar las instancias directamente en la clase 0-1, sino que quiero analizar las puntuaciones.
¿Cómo debo construir un método capaz de encontrar los diferentes umbrales para crear las 10 clases?