Dado que he escuchado sobre reglas de puntuación adecuadas para la clasificación binaria como la puntuación Brier o la Pérdida Logarítmica, estoy cada vez más convencido de que están drásticamente subrepresentadas en la práctica a favor de medidas como la precisión, el AUC-ROC o F1. Como quiero impulsar un cambio hacia reglas de puntuación adecuadas para la comparación de modelos en mi organización, hay un argumento común que no puedo responder completamente:
Si hay un desequilibrio extremo de clases (por ejemplo, 5 casos positivos vs 1,000 casos negativos), ¿cómo asegura la puntuación Brier que seleccionemos el modelo que nos brinde el mejor rendimiento en cuanto a pronósticos de alta probabilidad para los 5 casos positivos? Ya que no nos importa si los casos negativos tienen predicciones cercanas a 0 o 0.5 siempre y cuando sean relativamente más bajas que las de las clases positivas.
Actualmente tengo dos posibles respuestas disponibles, pero me encantaría escuchar opiniones de expertos sobre este tema:
1. "La puntuación Brier como regla de puntuación adecuada otorga el peso adecuado a los eventos raros en la evaluación del rendimiento. La capacidad discriminativa puede examinarse aún más con el AUC-ROC."
Esto sigue la lógica del comentario de Frank Harrell a una pregunta relacionada: "Los pronósticos de eventos raros tienen el efecto "correcto" en la media, es decir, la probabilidad predicha media del evento = proporción general de eventos. La puntuación Brier funciona sin importar la prevalencia de los eventos." Como él sugiere además, uno podría complementar la puntuación Brier con el AUC-ROC para examinar en qué medida se logró el ranking relativo deseado de casos positivos sobre casos negativos.
2. "Podemos usar la puntuación Brier estratificada para ponderar de manera equitativa el rendimiento del pronóstico con respecto a cada clase."
Esto sigue la lógica de la argumentación de este documento: "Promediar la puntuación Brier de todas las clases da como resultado la puntuación Brier estratificada. La puntuación Brier estratificada es más apropiada cuando hay desequilibrio de clases, ya que otorga igual importancia a todas las clases y permite detectar cualquier descalibración de las clases minoritarias.". No estoy seguro si la pérdida de la propiedad de regla de puntuación estrictamente adecuada vale la mayor ponderación de la clase minoritaria de interés y si hay un fundamento estadístico sólido para usar esta forma arbitraria de reponderación ("Si seguimos este enfoque, ¿qué nos impide ir más allá y ponderar la clase minoritaria 2, 17 o 100 veces más que la otra clase?").