26 votos

Área bajo la curva ROC cuando hay desequilibrio: ¿hay un problema, y si no, por qué existe este rumor?

LA RECOMPENSA

Como se prometió, se ha emitido una recompensa de $250$ puntos. Una respuesta que merezca una recompensa debe abordar la aparente controversia en las respuestas aquí de que la interpretación de la curva ROC no depende de la proporción de clases, aunque las curvas ROC probablemente no abordan las preguntas de interés en un problema desequilibrado, especialmente a la luz de la relación entre las curvas ROC y el test de Wilcoxon sobre las predicciones realizadas para cada una de las dos categorías (una medida bastante razonable de cuán bien se distinguen las categorías entre sí).

PREGUNTA ORIGINAL

Cross Validated tiene una refutación bastante completa de que el desequilibrio de clases sea un problema inherente que debe resolverse para hacer modelado predictivo de calidad de resultados categóricos [1, 2]. Sin embargo, hay medidas de rendimiento del modelo que pueden ser engañosas cuando hay desequilibrio. La más obvia, cuyo uso (incorrecto) parece ser el motor detrás de muchas concepciones erróneas sobre el desequilibrio de clases, es que una alta precisión en la clasificación no tiene por qué corresponder a un modelo de calidad. Sí, un porcentaje de precisión del $99\%$ suena como una $\text{A}$ en la escuela, sin embargo, si el desequilibrio es de $1000$$:$$1$, podrías obtener una mayor precisión de clasificación simplemente prediciendo la categoría mayoritaria cada vez.

Otra medida de rendimiento que se ha afirmado que tiene problemas en problemas desequilibrados es el área bajo la curva característica operativa del receptor (ROC). Me cuesta ver por qué sería el caso. El desequilibrio es simplemente la probabilidad previa de pertenencia a una clase, y alterar la previa lleva a una transformación monótona de los valores de probabilidad predichos, dejando la curva ROC sin cambios. Cuando he simulado curvas ROC bajo desequilibrio, he obtenido básicamente las mismas curvas sin importar la proporción de clases. El área bajo la curva ROC está relacionada con el test de Wilcoxon de las dos grupos de predicciones, y no hay nada inherentemente incorrecto en usar un test de Wilcoxon cuando los tamaños de grupo son desiguales. Finalmente, Fawcet (2006) dice que las curvas ROC no son sensibles a la proporción de clases (ver el comienzo de la sección 4.2 así como la figura 5).

A pesar de esto, parece que la ciencia de datos cree que las curvas ROC son problemáticas o ilegítimas cuando las categorías están desequilibradas. Incluso Cross Validated y el Data Science Stack parecen dar resultados mixtos sobre este tema.

La respuesta aceptada aquí argumenta en contra de las curvas ROC en entornos desequilibrados.

La respuesta de Harrell aquí argumenta que no hay problema.

Una publicación en ciencia de datos argumenta que las curvas ROC son problemáticas en entornos desequilibrados, citando una publicación de ACM que afirma esto.

La respuesta aceptada aquí dice que la curva ROC no depende de la proporción de clases pero que las curvas PR podrían responder a las preguntas más interesantes.

¿He pasado por alto algo sobre por qué las curvas ROC son problemáticas cuando las clases están desequilibradas? Si mi postura es correcta y el desequilibrio no representa un problema para las curvas ROC, ¿por qué existe y persiste esta concepción errónea?

Mis suposiciones sobre por qué existe y persiste esta concepción errónea (si es que lo es) son:

  1. Hay un malentendido general sobre el desequilibrio de clases entre los profesionales, quizás desagradando la posibilidad muy real de obtener un alto AUC y que todas las observaciones sean clasificadas como la clase mayoritaria según la regla de decisión argmax predeterminada del software.

  2. El desequilibrio de clases está asociado con problemas que sí degradan las curvas ROC, incluso si el desequilibrio no es la causa directa. Por ejemplo, si el desequilibrio hace que la optimización de la red neuronal no converja como lo haría con clases equilibradas, hay una solución subóptima para los parámetros del modelo, lo que lleva a predicciones peores (en cierto sentido) y, tal vez, afectando la curva ROC. En este caso, la curva ROC estaría bien si dejáramos que la optimización se ejecutara para siempre y llegara al mínimo global que queremos alcanzar, pero entrenamos nuestros modelos en tiempo finito y obtenemos predicciones de esos modelos subóptimos.

REFERENCIA

Fawcett, Tom. "An introduction to ROC analysis." Pattern Recognition Letters 27.8 (2006): 861-874.

EDICIÓN

He encontrado algunos artículos en línea sobre por qué las curvas ROC son problemáticas cuando hay desequilibrio. Hasta ahora, me dejan con una de dos pensamientos.

  1. Si consideras que las curvas ROC son problemáticas en un entorno desequilibrado pero bien en un entorno equilibrado, estás utilizando las curvas ROC en un entorno equilibrado para decirte algo que no afirman decirte. Por ejemplo, este artículo afirma que las curvas precisión-recall son más útiles que las curvas ROC si consideras tu tarea como recuperación de información. Sin embargo, esto no es una cuestión de desequilibrio de clases: si deseas ver tu tarea como la selección de los $A$s entre una mezcla de $A$s y $B$s, entonces las curvas precisión-recall podrían ser más informativas.

  2. Existen problemas cuando el recuento bruto de la clase minoritaria es pequeño, no cuando hay simplemente relativamente pocas de una categoría frente a la otra. Por ejemplo, este artículo da un ejemplo con solo diez observaciones de la categoría minoritaria, y este artículo dice que "un pequeño número de predicciones correctas o incorrectas puede resultar en un gran cambio en la Curva ROC o en la puntuación del AUC de la ROC," cuyo efecto se verá disminuido al aumentar el tamaño de la muestra. Podría aceptar esto como un ejemplo de lo que escribí anteriormente sobre el desequilibrio en sí mismo no siendo un problema pero el desequilibrio asociado con un problema, en este caso, un bajo recuento de observaciones de la clase minoritaria.

17voto

dan90266 Puntos 609

Este es en realidad un problema muy simple. El área bajo la curva ROC (AUROC) es igual a la probabilidad de concordancia de Wilcoxon-Mann-Whitney-Somers, una probabilidad de concordancia, una $U$-estadística, es decir, tomar todas las posibles parejas de una observación con Y=0 y una observación con Y=1 y calcular la fracción de tales parejas para las cuales el valor predicho cuando Y=1 superó al valor predicho cuando Y=0. Puedes ver entonces que AUROC condiciona sobre Y, por lo que AUROC no puede tener un significado alterado dependiendo de las frecuencias relativas de Y=0 y Y=1. El único "daño" que puede causar el desbalance es un error estándar más alto en la probabilidad de concordancia (índice $c$), lo cual es simplemente un hecho con el que vivir. "Balancear" un conjunto de datos solo aumentará la estimación de su error estándar.

De igual manera, cada punto en la curva ROC condiciona sobre Y, por lo que toda la curva es condicional sobre Y. Cada punto está compuesto por probabilidades como $\Pr(X > x | Y=y)$ ($y=0$ para el eje x, $y=1$ para el eje y).

11voto

jhin Puntos 106

Para mí, esto parece ser un malentendido de la crítica de AUROC en el caso (fuertemente) desequilibrado. Reformulando el argumento presentado por Saito y Rehmsmeier, no es que AUROC esté afectado por el desequilibrio de clases, esto ha sido discutido/rebatido en profundidad por las otras respuestas excelentes, sino que AUROC, en el caso de desequilibrio fuerte, puede estar menos alineado con lo que realmente interesa. De hecho, Saito y Rehmsmeier argumentan que el problema es precisamente que AUROC no se ve afectado por el desequilibrio de clases.

Considera el siguiente ejemplo simple: a un umbral de decisión específico, un clasificador tiene $\mathrm{TPR}=0.9$ y $\mathrm{FPR}=0.1$.

Escenario A, completamente equilibrado, $n_{\text{pos,A}}=n_{\text{neg,A}}=1000$: esto resulta en 100 predicciones falsas negativas (FN) y 100 predicciones falsas positivas (FP), y un valor predictivo positivo (PPV) / precisión de 0.9.

Escenario B, desequilibrado, $n_{\text{pos,B}}=1000$ y $n_{\text{neg,B}}=10\,000$: esto aun resulta en 100 FN pero ahora tenemos 1000 FP y un PPV/precisión de solo 0.47.

Ahora, si bien esto solo consideraba un punto particular a lo largo de la curva ROC, podemos observar mediante un argumento análogo que la precisión se reducirá en el caso desequilibrado en comparación con el caso equilibrado en cada punto a lo largo de la curva ROC.1

Los dos escenarios A y B son ciertamente diferentes en cierto sentido, y AUROC simplemente no está diseñado para reflejar esta diferencia. (Esto no significa que esté "roto" o algo así; simplemente no está diseñado para este propósito.)

El argumento continúa diciendo que en casos de desequilibrio fuerte, la información transmitida, por ejemplo, en una curva PR puede estar más alineada con la noción de rendimiento del modelo en la que los profesionales están interesados.

Dos hechos adicionales relacionados:

  1. Cortes y Mohri (2003), Ec. (7) y Fig. 3 muestran cómo la relación entre el AUROC esperado y la tasa de error / precisión depende del equilibrio de clases. Kwegyir-Aggrey et al. (2023) también tienen algunos experimentos simples que ilustran esto. Esto indica nuevamente que, en cierto sentido, los valores AUROC idénticos significan cosas diferentes en diferentes ratios de desequilibrio de clases.
  2. Hand y Anagnostopoulos (2023) (y trabajos anteriores de ellos) muestran cómo se puede entender AUROC como una pérdida de clasificación esperada, donde el costo de los diferentes tipos de error (FP/FN) está definido implícitamente y depende tanto del clasificador utilizado como del problema de clasificación en cuestión, incluida su distribución de clases. (Proponen su medida H como una alternativa supuestamente superior, que se ha discutido algunas veces en stats.SE).

Para resumir:

  • No, AUROC no se ve afectado por el desequilibrio de clases.
  • Algunas personas argumentan que precisamente esto es un problema porque la métrica se aleja menos de una noción intuitiva de rendimiento del clasificador en el caso de desequilibrio fuerte.

Referencias:


1Elije cualquier punto $(\mathrm{TPR}, \mathrm{FPR})$ a lo largo de la curva ROC. Esto nos dará $\mathrm{TP}_A = \mathrm{TPR} \cdot n_{\text{pos,A}}$ y $\mathrm{FP}_A = \mathrm{FPR} \cdot n_{neg,A}$ para el escenario A (equilibrado), mientras que para el escenario B (desequilibrado), obtenemos $\mathrm{TP}_B = \mathrm{TPR} \cdot n_{\text{pos,B}} = \mathrm{TP}_A$ y $\mathrm{FP}_B = \mathrm{FPR} \cdot n_{neg,B} = 10 \,\,\mathrm{FP}_A$. Dado que $\mathrm{PPV} = P(y{=}1 \mid \hat{y}{=}1) = \mathrm{TP} / (\mathrm{TP} + \mathrm{FP})$, tenemos $\mathrm{PPV}_B = \mathrm{TP}_B / (\mathrm{TP}_B + \mathrm{FP}_B) < \mathrm{TP}_A / (\mathrm{TP}_A + \mathrm{FP}_A) = \mathrm{PPV}_A \; \forall \, (\mathrm{TPR}, \mathrm{FPR}).$

3voto

John Richardson Puntos 1197

"A pesar de esto, la ciencia de datos parece creer que las curvas ROC son problemáticas o ilegítimas cuando las categorías están desbalanceadas."

Esto se debe a que muchos en la comunidad de la ciencia de datos parecen pensar que el desbalance de clases es un problema inherente, y las curvas ROC, y específicamente la estadística AUROC, "ocultan" el problema.

El problema real suele ser el aprendizaje sensible al costo. Si su clasificador clasifica todo como perteneciente a la clase mayoritaria, es posible que simplemente sea la solución óptima si los costos de clasificación errónea son iguales. No hay problema de desbalance de clases aquí, ¿cómo puede haber un problema si el clasificador se comporta de manera óptima para la pregunta planteada?

Si esto no es aceptable para la aplicación práctica, significa que la clase minoritaria es "más importante" en cierto sentido que la clase mayoritaria, por lo que el practicante debería calcular valores plausibles para el costo de clasificación errónea e incorporarlos en el clasificador (preferiblemente utilizando un clasificador probabilístico y ajustando el umbral).

El análisis ROC puede ayudar con esto (la pendiente de la línea tangente a la curva da la relación de costos de clasificación errónea si mal no recuerdo).

El AUROC es una estadística útil cuando solo le interesa la clasificación de patrones, quizás porque los costos de clasificación incorrecta son desconocidos o las frecuencias de clase operativas son desconocidas, y por lo tanto no puede conocer el umbral ideal y, por lo tanto, no puede utilizar ninguna estadística basada en ese umbral (como precisión o F1 o ...).

Necesitamos entender el problema que estamos tratando de resolver, y determinar en qué estamos realmente interesados, y luego elegir una métrica de rendimiento adecuada basada en eso (en lugar de enfocarnos en características de los datos, como el desbalance).

2voto

user164061 Puntos 281

El problema

Área bajo la curva ROC cuando hay desequilibrio: ¿hay un problema?

Creo que la respuesta es que las curvas ROC y el AUC ya son más generalmente un problema, con o sin desequilibrio de clases.

Las curvas ROC muestran el rendimiento de los clasificadores para una amplia gama de tasas de verdaderos y falsos positivos, pero a menudo solo una pequeña parte de ese rango es de interés. Por lo tanto, una curva ROC y especialmente una estadística simplificada como el AUC pueden no ser de mucha utilidad.

Una pregunta relacionada con los problemas del AUC y si se pueden aplicar sin tener en cuenta otras consideraciones es la pregunta: ¿Siempre es mejor un AUC más alto? Nota al margen que aparece en esa pregunta: aparte de las consideraciones al comparar directamente la estadística, también tienes consideraciones sobre los costos de usar un clasificador y la precisión de las estimaciones de la curva ROC.

El rumor

Si no, ¿por qué existe este rumor?

El principio más general para la comparación de clasificadores es la función de coste y el asunto de qué clasificador optimiza esto. Se utiliza un tipo simple de costo en la pregunta: ¿Son suficientes las curvas ROC no cruzadas para clasificar los clasificadores por pérdida esperada?

En esa pregunta, la esperanza de la pérdida es un producto de varios términos

$$\begin{array}{} E[Pérdida] &=& p_{Y=1} (1-f_{TP}) a + p_{Y=0} (f_{FP}) b \\ \end{array}$$

  • $p_{Y=1}$ y $p_{Y=0}$ son las frecuencias de clase
  • $f_{TP}$ y $f_{FP}$ son las tasas de verdaderos y falsos positivos.
  • $a$ y $b$ son los costos de cometer una clasificación incorrecta

Las frecuencias de clase (en el primer punto) juegan un papel en la pérdida esperada de un clasificador particular. Esto abre la puerta para que las personas consideren situaciones donde $p_{Y=1}$ y $p_{Y=0}$ son muy diferentes (desequilibrio de clases). Y eso puede ser una razón por la que se discute el equilibrio de clases en relación con el AUC y la ROC. Sin embargo, la situación se trata más generalmente de toda la función de coste. El desequilibrio de clases es solo una parte de la historia.

El desequilibrio de clases juega un papel, pero no es el único factor. Los enlaces en la pregunta como ¿Datos desequilibrados? Deja de usar ROC-AUC y usa AUPRC en su lugar hablan sobre el desequilibrio, pero en realidad están más relacionados con el principio más general de la función de coste y ocurren en el ejemplo que se trata del equilibrio de clases.

Dependiendo de los costos $a$ y $b$ de los tipos de clasificaciones incorrectas, el desequilibrio puede ser bueno o malo. No hay nada especial en las clases equilibradas. Simplemente sucede que es un punto de partida que la gente discute a menudo.

Más sobre el desequilibrio de clases

Otra forma en que el desequilibrio de clases puede convertirse en parte del rumor es porque es un tema popular. A veces puede ser realmente un problema, pero entonces no se trata del AUC que es un problema mucho más general. Un ejemplo ocurre en la pregunta ¿La herramienta de IA de Amazon, más que los reclutadores humanos, estaba sesgada contra las mujeres? donde el desequilibrio de clases es un mecanismo para el sesgo en los clasificadores hacia clases particulares. En este caso, no se trata del desequilibrio en casos positivos versus negativos, sino en el desequilibrio en clases/variables adicionales como el género. Si un modelo se entrena principalmente en un conjunto particular de ejemplos, puede tener un mal rendimiento al predecir ejemplos que son diferentes. Por ejemplo, un algoritmo que se usa para reclutar nuevos empleados puede dar una ventaja a los hombres sobre las mujeres cuando se ha entrenado con datos mayoritariamente de hombres.

1voto

Gerry Zavorsky Puntos 11

La métrica más informativa que utilizo es el Coeficiente de Correlación de Matthews (MCC), que captura el verdadero equilibrio entre las clasificaciones positivas y negativas, minimizando los errores. Cuatro de los seis valores MCC más altos provienen de modelos que utilizan z-scores combinados. Si bien el AUC se usa a menudo como métrica de rendimiento, puede ser engañoso, especialmente en conjuntos de datos con alta prevalencia de enfermedades. El MCC es mejor que el AUC.

Por ejemplo, una precisión del 80% en una población con una prevalencia del 74% no es un logro notable. El MCC, que agrega verdaderos positivos, negativos, falsos positivos y negativos, ofrece una representación más veraz, especialmente cuando tanto los verdaderos positivos como negativos son igual de significativos.

El coeficiente de correlación de Matthews (MCC) es una métrica especialmente confiable al evaluar categorías binarias en conjuntos de datos donde el número de casos de enfermedad no coincide con los casos no enfermedad. Solo se logran puntuaciones MCC altas cuando las predicciones clasifican con precisión una proporción significativa de pacientes enfermos y no enfermos, independientemente de cualquier desequilibrio de clases.

Usa el MCC en lugar del ROC.

Referencias

Chicco D, Jurman G. Los beneficios del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y precisión en la evaluación de clasificaciones binarias. BMC Genomics 2020: 21(1): 6.

Chicco D, Totsch N, Jurman G. El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la informabilidad del Bookmaker y la marcabilidad en la evaluación de matriz de confusión de dos clases. BioData Min 2021: 14(1): 13.

Boughorbel S, Jarray F, El-Anbari M. Clasificador óptimo para datos desequilibrados utilizando la métrica del Coeficiente de Correlación de Matthews. PLoS One 2017: 12(6): e0177678.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X