LA RECOMPENSA
Como se prometió, se ha emitido una recompensa de $250$ puntos. Una respuesta que merezca una recompensa debe abordar la aparente controversia en las respuestas aquí de que la interpretación de la curva ROC no depende de la proporción de clases, aunque las curvas ROC probablemente no abordan las preguntas de interés en un problema desequilibrado, especialmente a la luz de la relación entre las curvas ROC y el test de Wilcoxon sobre las predicciones realizadas para cada una de las dos categorías (una medida bastante razonable de cuán bien se distinguen las categorías entre sí).
PREGUNTA ORIGINAL
Cross Validated tiene una refutación bastante completa de que el desequilibrio de clases sea un problema inherente que debe resolverse para hacer modelado predictivo de calidad de resultados categóricos [1, 2]. Sin embargo, hay medidas de rendimiento del modelo que pueden ser engañosas cuando hay desequilibrio. La más obvia, cuyo uso (incorrecto) parece ser el motor detrás de muchas concepciones erróneas sobre el desequilibrio de clases, es que una alta precisión en la clasificación no tiene por qué corresponder a un modelo de calidad. Sí, un porcentaje de precisión del $99\%$ suena como una $\text{A}$ en la escuela, sin embargo, si el desequilibrio es de $1000$$:$$1$, podrías obtener una mayor precisión de clasificación simplemente prediciendo la categoría mayoritaria cada vez.
Otra medida de rendimiento que se ha afirmado que tiene problemas en problemas desequilibrados es el área bajo la curva característica operativa del receptor (ROC). Me cuesta ver por qué sería el caso. El desequilibrio es simplemente la probabilidad previa de pertenencia a una clase, y alterar la previa lleva a una transformación monótona de los valores de probabilidad predichos, dejando la curva ROC sin cambios. Cuando he simulado curvas ROC bajo desequilibrio, he obtenido básicamente las mismas curvas sin importar la proporción de clases. El área bajo la curva ROC está relacionada con el test de Wilcoxon de las dos grupos de predicciones, y no hay nada inherentemente incorrecto en usar un test de Wilcoxon cuando los tamaños de grupo son desiguales. Finalmente, Fawcet (2006) dice que las curvas ROC no son sensibles a la proporción de clases (ver el comienzo de la sección 4.2 así como la figura 5).
A pesar de esto, parece que la ciencia de datos cree que las curvas ROC son problemáticas o ilegítimas cuando las categorías están desequilibradas. Incluso Cross Validated y el Data Science Stack parecen dar resultados mixtos sobre este tema.
La respuesta aceptada aquí argumenta en contra de las curvas ROC en entornos desequilibrados.
La respuesta de Harrell aquí argumenta que no hay problema.
¿He pasado por alto algo sobre por qué las curvas ROC son problemáticas cuando las clases están desequilibradas? Si mi postura es correcta y el desequilibrio no representa un problema para las curvas ROC, ¿por qué existe y persiste esta concepción errónea?
Mis suposiciones sobre por qué existe y persiste esta concepción errónea (si es que lo es) son:
-
Hay un malentendido general sobre el desequilibrio de clases entre los profesionales, quizás desagradando la posibilidad muy real de obtener un alto AUC y que todas las observaciones sean clasificadas como la clase mayoritaria según la regla de decisión argmax predeterminada del software.
-
El desequilibrio de clases está asociado con problemas que sí degradan las curvas ROC, incluso si el desequilibrio no es la causa directa. Por ejemplo, si el desequilibrio hace que la optimización de la red neuronal no converja como lo haría con clases equilibradas, hay una solución subóptima para los parámetros del modelo, lo que lleva a predicciones peores (en cierto sentido) y, tal vez, afectando la curva ROC. En este caso, la curva ROC estaría bien si dejáramos que la optimización se ejecutara para siempre y llegara al mínimo global que queremos alcanzar, pero entrenamos nuestros modelos en tiempo finito y obtenemos predicciones de esos modelos subóptimos.
REFERENCIA
Fawcett, Tom. "An introduction to ROC analysis." Pattern Recognition Letters 27.8 (2006): 861-874.
EDICIÓN
He encontrado algunos artículos en línea sobre por qué las curvas ROC son problemáticas cuando hay desequilibrio. Hasta ahora, me dejan con una de dos pensamientos.
-
Si consideras que las curvas ROC son problemáticas en un entorno desequilibrado pero bien en un entorno equilibrado, estás utilizando las curvas ROC en un entorno equilibrado para decirte algo que no afirman decirte. Por ejemplo, este artículo afirma que las curvas precisión-recall son más útiles que las curvas ROC si consideras tu tarea como recuperación de información. Sin embargo, esto no es una cuestión de desequilibrio de clases: si deseas ver tu tarea como la selección de los $A$s entre una mezcla de $A$s y $B$s, entonces las curvas precisión-recall podrían ser más informativas.
-
Existen problemas cuando el recuento bruto de la clase minoritaria es pequeño, no cuando hay simplemente relativamente pocas de una categoría frente a la otra. Por ejemplo, este artículo da un ejemplo con solo diez observaciones de la categoría minoritaria, y este artículo dice que "un pequeño número de predicciones correctas o incorrectas puede resultar en un gran cambio en la Curva ROC o en la puntuación del AUC de la ROC," cuyo efecto se verá disminuido al aumentar el tamaño de la muestra. Podría aceptar esto como un ejemplo de lo que escribí anteriormente sobre el desequilibrio en sí mismo no siendo un problema pero el desequilibrio asociado con un problema, en este caso, un bajo recuento de observaciones de la clase minoritaria.