86 votos

Reducir el umbral de probabilidad de clasificación

Tengo una pregunta sobre la clasificación en general. Dejemos que $f$ sea un clasificador, que produce un conjunto de probabilidades dados unos datos D. Normalmente, uno diría: bueno, si $P(c|D) > 0.5$ asignaremos una clase 1, en caso contrario 0 (se trata de una clasificación binaria).

Mi pregunta es, ¿qué pasa si descubro que si clasifico la clase como 1 también cuando las probabilidades son mayores que, por ejemplo, 0,2, y el clasificador funciona mejor? ¿Es legítimo utilizar entonces este nuevo umbral al hacer la clasificación?

Yo interpretaría la necesidad de un límite de clasificación más bajo en el contexto de que los datos emiten una señal más pequeña, pero aún así significativa para el problema de clasificación.

Me doy cuenta de que esta es una forma de hacerlo. Sin embargo, si esto no es correcto pensar en reducir el umbral, ¿cuáles serían algunas transformaciones de datos, que hacen hincapié en las características individuales de una manera similar, de modo que el umbral puede permanecer en 0,5?

129voto

icelava Puntos 548

Frank Harrell ha escrito sobre esto en su blog: Clasificación vs. Predicción con la que estoy totalmente de acuerdo.

Esencialmente, su argumento es que el componente estadístico de su ejercicio termina cuando se obtiene una probabilidad para cada clase de su nueva muestra. La elección de un umbral a partir del cual se clasifica una nueva observación como 1 frente a 0 no forma parte del estadísticas más. Es parte de la decisión componente. Y aquí, usted necesita la salida probabilística de su modelo - pero también consideraciones como:

  • ¿Qué consecuencias tiene la decisión de tratar una nueva observación como clase 1 frente a 0? ¿Envío entonces un correo de marketing barato a todos los 1? ¿O aplico un tratamiento invasivo contra el cáncer con grandes efectos secundarios?
  • ¿Cuáles son las consecuencias de tratar un 0 "verdadero" como un 1, y viceversa? ¿Extrañaré a un cliente? ¿Someter a alguien a un tratamiento médico innecesario?
  • ¿Son mis "clases" realmente discretas? ¿O existe realmente un continuo (por ejemplo, la presión arterial), en el que los umbrales clínicos son en realidad sólo atajos cognitivos? Si es así, ¿cómo lejos más allá de un umbral es el caso que estoy "clasificando" ahora mismo?
  • ¿O una probabilidad baja pero positiva de ser clase 1 significa realmente "obtener más datos", "hacer otra prueba"?

Así que, para responder a su pregunta: hable con el consumidor final de su clasificación y obtenga respuestas a las preguntas anteriores. O explíquele su resultado probabilístico y deje que le guíe por los siguientes pasos.

17voto

Shift Puntos 310

La respuesta de Stephan es genial. Depende fundamentalmente de lo que quieras hacer con el clasificador.

Sólo añado algunos ejemplos.

Una forma de encontrar el mejor umbral es definir una función objetivo. En el caso de la clasificación binaria, puede ser la precisión o la puntuación F1, por ejemplo. Dependiendo de lo que elijas, el mejor umbral será diferente. Para la puntuación F1, hay una respuesta interesante: ¿Cuál es el umbral óptimo de la F1? ¿Cómo se calcula? . Pero al decir "quiero usar F1-score" es cuando realmente se hace la elección. Que esta elección sea buena o no depende del objetivo final.

Otra forma de verlo es enfrentarse a la disyuntiva entre exploración y explotación (el último punto de Stephan): El bandido de brazos múltiples es un ejemplo de un problema de este tipo: hay que lidiar con dos objetivos contrapuestos: adquirir información y elegir al mejor bandido. Una estrategia bayesiana consiste en elegir cada bandido al azar con la probabilidad de que sea el mejor. No se trata exactamente de una clasificación, sino de tratar las probabilidades de salida de forma similar.

Si el clasificador es sólo un ladrillo en el algoritmo de toma de decisiones, entonces el mejor umbral dependerá del propósito final del algoritmo. Debe evaluarse y ajustarse en función del objetivo de todo el proceso.

4voto

macnewbie Puntos 10

Posiblemente tenga algún valor considerar cómo se calcula la probabilidad. Actualmente, los clasificadores utilizan un vector de sesgo, que se multiplica por una matriz (álgebra lineal). Mientras haya valores distintos de cero en el vector, la probabilidad (el producto del vector y la matriz) nunca será 0.

Esto causa confusión en el mundo real de la gente que no tomó álgebra lineal, supongo. Les molesta el hecho de que haya puntuaciones de probabilidad para elementos que ellos creen que deberían tener 0. En otras palabras, están confundiendo la entrada estadística, de la decisión basada en esa entrada. Como humanos, podríamos decir que algo con una probabilidad de 0,0002234 es lo mismo que 0, en la mayoría de los casos de uso "práctico". En las discusiones de la ciencia cognitiva superior, tal vez, hay una discusión interesante sobre por qué el vector de sesgo hace esto, o más bien, es esto válido para las aplicaciones cognitivas.

3voto

Alex F Puntos 119

No hay un umbral equivocado. El umbral que elijas depende de tu objetivo en la predicción, o más bien de lo que quieras favorecer, por ejemplo, la precisión frente a la recuperación (intenta graficarlo y medir su AUC asociado para comparar diferentes modelos de clasificación que elijas).

Os pongo este ejemplo de precisión vs recall, porque en el caso de mi propio problema en el que estoy trabajando ahora mismo, elijo mi umbral en función de la precisión mínima (o PPV Positive Predictive Value) que quiero que tenga mi modelo al predecir, pero no me importan mucho los negativos. Por lo tanto, tomo el umbral que corresponde a la precisión deseada una vez que he entrenado mi modelo. La precisión es mi restricción y la recuperación es el rendimiento de mi modelo, cuando lo comparo con otros modelos de clasificación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X