3 votos

Regresión logística: etiquetado del resultado según la confianza de la clasificación

Hemos entrenado nuestro modelo de regresión logística para clasificar a los candidatos que asisten a las entrevistas como "aptos" o "no aptos" (dos resultados posibles)

Ahora, como paso posterior a la predicción, tenemos previsto clasificar a los candidatos en fuertes/mediocres/débiles en función de la puntuación de probabilidad del modelo.

¿Cuál es la forma correcta de clasificar a los candidatos?

2voto

science Puntos 1

¿Por qué no utilizar más umbrales? Por ejemplo:

  1. Si probabilidad < 0,25 entonces clase = "débil"
  2. Si 0,25 <= probabilidad <= 0,75 entonces clase = "mediocre"
  3. Si probabilidad > 0,75 entonces clase = "fuerte"

Pero recuerde que si su interés es predecir correctamente (en este caso clasificar) nuevas observaciones, no podrá hacer una comparación entre la verdad (2 clases) y las predicciones (3 clases).

Las etiquetas de las predicciones deben ser siempre las mismas que las etiquetas de verdad en un problema de clasificación.

Si acepta el hecho de que su modelo no es perfecto, puede seguir utilizando las probabilidades estimadas como "puntuación" para cada observación. Y utilizar la definición de 3 clases anterior. Pero no podrá decir, por ejemplo, que el modelo tiene una precisión del 80%, debido al diferente número de etiquetas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X