Tengo un problema de clasificación binaria en el que realizo una validación cruzada en el conjunto de entrenamiento (actualmente el 80% de los ejemplos) y luego evalúo los resultados en un conjunto de prueba.
Utilizo la validación cruzada para encontrar el mejor algoritmo y sus parámetros óptimos (utilizo la puntuación AUC como indicador del rendimiento de los pliegues), pero luego tengo que elegir un umbral entre 0 y 1 para "completar" el proceso de clasificación.
PREGUNTA: ¿cuál es el paso correcto de la tubería de clasificación en el que debo elegir el umbral de predicción?
Tengo en mente 3 opciones:
- Elija el umbral de predicción en función de las probabilidades de predicción del conjunto de pruebas: He visto hacer esto pero no parece tan correcto, ¿me equivoco?
- Crear un conjunto de validación (de modo que podría dividir los datos con proporciones 60/20/20 para los conjuntos de entrenamiento, validación y prueba) y elegir el umbral óptimo en él; a continuación, aplicar este umbral, junto con el mejor algoritmo encontrado con validación cruzada, en el conjunto de prueba. El problema con esta solución es que mis datos no son tan...
- Considere la predicción del umbral como uno de los parámetros a elegir durante la validación cruzada. Dado que la búsqueda de una cuadrícula de umbrales en mis datos sería bastante costosa, estaba pensando en realizar la CV en 2 pasos:
- una primera validación cruzada para seleccionar el modelo y sus parámetros
- a continuación, dado el mejor modelo/parámetros, realizar una segunda validación cruzada para elegir el umbral, utilizando la puntuación f1 como métrica de rendimiento
¿Cuál de las opciones anteriores parece viable? ¿Cuál es el enfoque mejor/correcto?
¡¡Gracias!!