Creo que definitivamente, usted debe mirar en más métricas que sólo el AUC y la exactitud.
Precisión (junto con la sensibilidad y especificidad) es muy sencillo, pero sesgada métrica que te obliga a mirar el absoluto de predicción de resultado y no se abre por la afirmación de la clase de probabilidades o de clasificación. También no tomar la población en cuenta que invita a la interpretación como un modelo dándole un 95% de precisión en una población con un 95% de probabilidad de acertar al azar no es realmente un buen modelo, aunque la precisión es alta.
El AUC es una buena medida para que se verifique la exactitud del modelo, que es independiente de la población de clase probabilidades. Será, sin embargo no dicen nada acerca de lo bien que las estimaciones de probabilidad son en realidad. Usted podría conseguir un alto AUC, pero todavía tienen muy sesgada estimaciones de la probabilidad. Esta métrica más exigente que la exactitud y sin duda le dan mejor los modelos cuando se utiliza en combinación con alguna regla de puntuación, e.g Brier score como se ha mencionado en otro post.
Usted puede conseguir un sistema más formal de la prueba aquí, a pesar de este papel es bastante teórico: AUC: Estadísticamente Consistente y más exigente Medida de la Precisión
Sin embargo, hay un montón de buenas métricas disponibles.
Pérdida de las Funciones para los Binarios de la Clase de Probabilidad Estimación
y Clasificación: Estructura y Aplicaciones es un buen papel investigaing adecuada reglas de puntuación, tales como el Brier score.
Otro interesante documento con una serie de métricas para la afirmación de un modelo de rendimiento de la Evaluación: de la precisión, recall y F-measure para ROC,
informedness, markedness y la correlación de tomar otras buenas métricas de rendimiento, tales como informedness.
Para resumir, yo recomendaría mirar AUC/Gini y Brier score para afirmar que el desempeño del modelo, pero dependiendo del objetivo con el modelo de otras métricas que podría adaptarse a su problema mejor.