5 votos

Qué métricas centrar en un problema de clasificación con clases desequilibradas

Actualmente, tengo que trabajar en un proyecto de clasificación binaria (comercio electrónico), donde la clase del comprador (clase 1) es una clase minoritaria y es la clase de interés. La construcción de un modelo de clasificación tiene dos tipos de error;

  1. predecir como un no comprador un comprador
  2. prediciendo como comprador un no comprador.

Para la clase minoritaria class 1 :

FP significa que hemos predicho 1, mientras que la clase real es 0, es decir clasificamos a un no comprador como comprador (la precisión es menor).

FN significa que hemos predicho 0, mientras que la clase real es 1, es decir echamos de menos un comprador real (el recuerdo se reduce).

Mi pregunta es qué métrica debo utilizar para evaluar los diferentes modelos. Aparentemente, la precisión no es una métrica muy buena, debido a las clases desequilibradas.

Para ambas clases obtendré algunas métricas, es decir, precisión, recall y f1-socre. Entonces, ¿dónde debo centrarme más?

P.D. Dada la información extra, que un no comprador tiene un pequeño coste y un comprador tiene unos buenos ingresos, ¿cambiaría las métricas en las que debería centrarme?

4voto

David Puntos 41

Para ambas clases obtendré algunas métricas, es decir, precisión, recall y f1-socre. Entonces, ¿dónde debo centrarme más?

Para la clasificación binaria, solemos tener una puntuación de precisión y recuerdo / F1. y suele ser en la clase "positiva". Intentar mejorar la F1 será una buena práctica.

La Kappa de Cohen es otra buena métrica para los problemas de desequilibrio. Los detalles se pueden encontrar en este post.

La kappa de Cohen en inglés

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X