Puntuar el rendimiento de un modelo de clasificación suele parecer algo abstracto (miren ustedes las puntuaciones AUC...). Siempre existe la puntuación de precisión, que tiene la ventaja de ser agradable y fácil de comprender y que es genial para explicar lo bien que funcionará el modelo a otra persona (como, por ejemplo, las personas que realmente van a utilizar las predicciones que hace). Intuitivamente, espero que exista un método similar para las predicciones probabilísticas, por ejemplo, una simple "distancia media a la verdad" del tipo:
| Truth | Prediction | Score |
| ----- | ---------- | ----- |
| 1 | 0.97 | 0.03 |
| 0 | 0.35 | 0.35 |
| 1 | 0.76 | 0.24 |
| 0 | 0.42 | 0.42 |
La puntuación del modelo en su conjunto es la media de esas puntuaciones: 0,26 en este caso. Eso es bastante fácil de hacer manualmente, pero me sorprende que a) esto no es una métrica de puntuación común y b) no parece haber ningún método incorporado en la api scikit-learn.
Así que mi pregunta es la siguiente: ¿es la "distancia media a la verdad" una métrica de puntuación útil y, si la respuesta es no, por qué no?