10 votos

elección del umbral para el clasificador binario: ¿en el conjunto de entrenamiento, validación o prueba?

Tengo un problema de clasificación binaria en el que realizo una validación cruzada en el conjunto de entrenamiento (actualmente el 80% de los ejemplos) y luego evalúo los resultados en un conjunto de prueba.

Utilizo la validación cruzada para encontrar el mejor algoritmo y sus parámetros óptimos (utilizo la puntuación AUC como indicador del rendimiento de los pliegues), pero luego tengo que elegir un umbral entre 0 y 1 para "completar" el proceso de clasificación.

PREGUNTA: ¿cuál es el paso correcto de la tubería de clasificación en el que debo elegir el umbral de predicción?

Tengo en mente 3 opciones:

  1. Elija el umbral de predicción en función de las probabilidades de predicción del conjunto de pruebas: He visto hacer esto pero no parece tan correcto, ¿me equivoco?
  2. Crear un conjunto de validación (de modo que podría dividir los datos con proporciones 60/20/20 para los conjuntos de entrenamiento, validación y prueba) y elegir el umbral óptimo en él; a continuación, aplicar este umbral, junto con el mejor algoritmo encontrado con validación cruzada, en el conjunto de prueba. El problema con esta solución es que mis datos no son tan...
  3. Considere la predicción del umbral como uno de los parámetros a elegir durante la validación cruzada. Dado que la búsqueda de una cuadrícula de umbrales en mis datos sería bastante costosa, estaba pensando en realizar la CV en 2 pasos:
    • una primera validación cruzada para seleccionar el modelo y sus parámetros
    • a continuación, dado el mejor modelo/parámetros, realizar una segunda validación cruzada para elegir el umbral, utilizando la puntuación f1 como métrica de rendimiento

¿Cuál de las opciones anteriores parece viable? ¿Cuál es el enfoque mejor/correcto?

¡¡Gracias!!

3voto

cbeleites Puntos 12461

Ve con el 3:

  • Con respecto a 1, tiene razón: el conjunto de pruebas forma parte del entrenamiento del clasificador real.
  • 2 es un desperdicio de casos que no te hace ganar nada sobre 3

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X