Las respuestas anteriores son buenas.
Pero lo que quiero señalar es que el AUC (Área bajo ROC) es problemático especialmente cuando los datos están desequilibrados (lo que se denomina altamente sesgados): $Skew=\frac{negative\;examples}{positive\;examples}$ es grande). Este tipo de situaciones es muy común en la detección de acciones, detección de fraudes, predicción de quiebras, etc. Es decir, los ejemplos positivos que le interesan tienen tasas de ocurrencia relativamente bajas.
Con datos desequilibrados, el AUC sigue dando un valor específico en torno a 0,8. Sin embargo, es alto debido al gran FP, más que al gran TP (Verdadero positivo).
Como el ejemplo siguiente,
TP=155, FN=182
FP=84049, TN=34088
Así que cuando se utiliza el AUC para medir el rendimiento del clasificador, el problema es que el aumento del AUC no refleja realmente un mejor clasificador. Es sólo el efecto secundario de demasiados ejemplos negativos. Puedes simplemente probar en tu conjunto de datos desequilibrados, verás este problema.
El papel Frente a los datos desequilibrados Recomendaciones para el uso de las métricas de rendimiento encontraron que "aunque el ROC no se vio afectado por la inclinación, las curvas de precisión-recuerdo sugieren que el ROC puede enmascarar un mal rendimiento en algunos casos". La búsqueda de una buena métrica de rendimiento sigue siendo una cuestión abierta. Una puntuación F1 general puede ayudar $$ F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}}$$
donde el $\beta$ es la importancia relativa de la precisión en comparación con la recuperación.
Entonces, mis sugerencias para los datos desequilibrados son similares a este puesto . También puede probar la tabla de deciles, que puede construirse buscando "Tablas de clasificación y deciles de dos en dos". Mientras tanto, yo también estoy estudiando este problema y daré una mejor medida.