24 votos

¿Es el umbral de decisión un hiperparámetro en la regresión logística?

Las clases predichas de la regresión logística (binaria) se determinan utilizando un umbral en las probabilidades de pertenencia a la clase generadas por el modelo. Según tengo entendido, normalmente se utiliza 0,5 por defecto.

Pero si se varía el umbral, cambiarán las clasificaciones previstas. ¿Significa esto que el umbral es un hiperparámetro? Si es así, ¿por qué (por ejemplo) no es posible buscar fácilmente en una cuadrícula de umbrales utilizando el sistema de scikit-learn GridSearchCV (como se haría con el parámetro de regularización C ).

2 votos

"Según tengo entendido, normalmente se utiliza 0,5 por defecto". Depende del significado de la palabra "típico". En la práctica, nadie debería hacer esto.

4 votos

0 votos

Estrictamente no te refieres a la regresión logística, sino a utilizar un regresor logístico con un umbral para la clasificación binaria (también podrías entrenar un regresor para cada una de las dos clases, con un poco de aleatoriedad o ponderación para evitar que sean linealmente dependientes).

17voto

user777 Puntos 10934

El umbral de decisión crea un equilibrio entre el número de positivos que predice y el número de negativos que predice, ya que, tautológicamente, al aumentar el umbral de decisión disminuirá el número de positivos que predice y aumentará el número de negativos que predice.

El umbral de decisión es no un hiperparámetro en el sentido de la sintonía del modelo porque no cambia el flexibilidad del modelo.

La forma en que estás pensando en la palabra "afinar" en el contexto del umbral de decisión es diferente de cómo se afinan los hiperparámetros. Cambiando $C$ y otros hiperparámetros del modelo cambia el modelo (por ejemplo, los coeficientes de regresión logística serán diferentes), mientras que el ajuste del umbral sólo puede hacer dos cosas: cambiar TP por FN, y FP por TN. Sin embargo, el modelo sigue siendo el mismo, porque esto no cambia los coeficientes. (Lo mismo ocurre con los modelos que no tienen coeficientes, como los bosques aleatorios: cambiar el umbral no cambia nada de los árboles). Así que, en un sentido estricto, tienes razón en que encontrar el mejor equilibrio entre los errores es "afinar", pero te equivocas al pensar que cambiar el umbral está vinculado a otros hiperparámetros del modelo de una manera optimizada por GridSearchCV .

Dicho de otro modo, cambiar el umbral de decisión refleja una elección por su parte sobre el número de falsos positivos y falsos negativos que desea tener. Considere la hipótesis de que usted establece el umbral de decisión a un valor completamente inverosímil como -1. Todas las probabilidades son no negativas, por lo que con este umbral usted predecirá "positivo" para cada observación. Desde una cierta perspectiva, esto es genial, porque su tasa de falsos negativos es de 0,0. Sin embargo, su tasa de falsos positivos también está en el extremo de 1,0, así que en ese sentido su elección del umbral en -1 es terrible.

Lo ideal, por supuesto, es tener un TPR de 1,0 y un FPR de 0,0 y un FNR de 0,0. Pero esto suele ser imposible en las aplicaciones del mundo real, así que la pregunta se convierte en "¿cuánta FPR estoy dispuesto a aceptar por cuánta TPR?". Y esta es la motivación de roc curvas.

0 votos

Gracias por la respuesta @Sycorax. Casi me has convencido. Pero ¿no podemos formalizar la idea de "cuánta FPR estoy dispuesto a aceptar por cuánta TPR"? por ejemplo, utilizando una matriz de costes. Si tenemos una matriz de costes, ¿no sería deseable encontrar el umbral óptimo a través de la sintonización, como se haría con un hiperparámetro? ¿O hay una forma mejor de encontrar el umbral óptimo?

1 votos

La forma en que estás utilizando la palabra "afinar" aquí es diferente de cómo se afinan los hiperparámetros. Cambiando $C$ y otros hiperparámetros del modelo cambia el modelo (por ejemplo, los coeficientes de la regresión logística serán diferentes), mientras que el ajuste del umbral sólo puede hacer dos cosas: intercambiar TP por FN, y FP por TN (pero el modelo sigue siendo el mismo - los mismos coeficientes, etc.). Tienes razón en que quieres encontrar el mejor equilibrio entre los errores, pero te equivocas al decir que ese ajuste se realiza dentro de GridSearchCV .

0 votos

@Sycorax ¿El umbral y el intercepto (término de sesgo) no hacen básicamente lo mismo? Es decir, puedes mantener el umbral fijo en 0,5 pero cambiar el intercepto en consecuencia; esto "cambiará el modelo" (según tu último comentario) pero tendrá el mismo efecto en términos de predicciones binarias. ¿Es esto correcto? Si es así, no estoy seguro de que la distinción estricta entre "cambiar el modelo" y "cambiar la regla de decisión" tenga tanto sentido en este caso.

16voto

eldering Puntos 3814

Pero si se varía el umbral, cambiarán las clasificaciones previstas. ¿Significa esto que el umbral es un hiperparámetro?

Sí, lo hace, más o menos. Es un hiperparámetro de ti regla de decisión pero no la regresión subyacente.

Si es así, ¿por qué (por ejemplo) no es posible buscar fácilmente sobre una cuadrícula de umbrales utilizando el método GridSearchCV de scikit-learn (como se haría para el parámetro de regularización C).

Esto es un error de diseño en sklearn. La mejor práctica para la mayoría de los escenarios de clasificación es ajustar el modelo subyacente (que predice las probabilidades) utilizando alguna medida de la calidad de estas probabilidades (como el log-loss en una regresión logística). Después, debe ajustarse un umbral de decisión sobre estas probabilidades para optimizar algún objetivo empresarial de su regla de clasificación. La biblioteca debería facilitar la optimización del umbral de decisión basado en alguna medida de calidad, pero no creo que lo haga bien.

Creo que este es uno de los puntos en los que sklearn se equivocó. La biblioteca incluye un método, predict en todos los modelos de clasificación que se ajustan a 0.5 . Este método es inútil, y abogo firmemente por no invocarlo nunca. Es lamentable que sklearn no fomente un mejor flujo de trabajo.

1 votos

También comparto su escepticismo sobre el predict la elección por defecto del método de 0,5 como límite, pero GridSearchCV acepta scorer que pueden ajustar los modelos con respecto a la pérdida de entropía cruzada fuera de la muestra. ¿Me he perdido su punto de vista?

0 votos

Correcto, estoy de acuerdo en que es la mejor práctica, pero no anima a los usuarios a afinar los umbrales de decisión.

0 votos

Lo tengo. Entiendo lo que quieres decir.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X