El umbral de decisión crea un equilibrio entre el número de positivos que predice y el número de negativos que predice, ya que, tautológicamente, al aumentar el umbral de decisión disminuirá el número de positivos que predice y aumentará el número de negativos que predice.
El umbral de decisión es no un hiperparámetro en el sentido de la sintonía del modelo porque no cambia el flexibilidad del modelo.
La forma en que estás pensando en la palabra "afinar" en el contexto del umbral de decisión es diferente de cómo se afinan los hiperparámetros. Cambiando $C$ y otros hiperparámetros del modelo cambia el modelo (por ejemplo, los coeficientes de regresión logística serán diferentes), mientras que el ajuste del umbral sólo puede hacer dos cosas: cambiar TP por FN, y FP por TN. Sin embargo, el modelo sigue siendo el mismo, porque esto no cambia los coeficientes. (Lo mismo ocurre con los modelos que no tienen coeficientes, como los bosques aleatorios: cambiar el umbral no cambia nada de los árboles). Así que, en un sentido estricto, tienes razón en que encontrar el mejor equilibrio entre los errores es "afinar", pero te equivocas al pensar que cambiar el umbral está vinculado a otros hiperparámetros del modelo de una manera optimizada por GridSearchCV
.
Dicho de otro modo, cambiar el umbral de decisión refleja una elección por su parte sobre el número de falsos positivos y falsos negativos que desea tener. Considere la hipótesis de que usted establece el umbral de decisión a un valor completamente inverosímil como -1. Todas las probabilidades son no negativas, por lo que con este umbral usted predecirá "positivo" para cada observación. Desde una cierta perspectiva, esto es genial, porque su tasa de falsos negativos es de 0,0. Sin embargo, su tasa de falsos positivos también está en el extremo de 1,0, así que en ese sentido su elección del umbral en -1 es terrible.
Lo ideal, por supuesto, es tener un TPR de 1,0 y un FPR de 0,0 y un FNR de 0,0. Pero esto suele ser imposible en las aplicaciones del mundo real, así que la pregunta se convierte en "¿cuánta FPR estoy dispuesto a aceptar por cuánta TPR?". Y esta es la motivación de roc curvas.
2 votos
"Según tengo entendido, normalmente se utiliza 0,5 por defecto". Depende del significado de la palabra "típico". En la práctica, nadie debería hacer esto.
4 votos
Muy relacionado: Umbral de probabilidad de clasificación
0 votos
Estrictamente no te refieres a la regresión logística, sino a utilizar un regresor logístico con un umbral para la clasificación binaria (también podrías entrenar un regresor para cada una de las dos clases, con un poco de aleatoriedad o ponderación para evitar que sean linealmente dependientes).