27 votos

AUC y desequilibrio de clases en el conjunto de datos de entrenamiento/prueba

Acabo de empezar a aprender el Área bajo la curva ROC (AUC). Me han dicho que el AUC no se ve reflejado por el desequilibrio de los datos. Creo que significa que AUC es insensible al desequilibrio en los datos de prueba, en lugar de desequilibrio en los datos de entrenamiento.

En otras palabras, sólo cambiando la distribución de clases positivas y negativas en el prueba datos, el valor AUC puede no cambiar mucho. Pero si cambiamos la distribución en el formación datos, el valor AUC puede cambiar en gran medida. La razón es que el clasificador no puede aprenderse bien. En este caso, tenemos que utilizar el submuestreo y el sobremuestreo. ¿Estoy en lo cierto? Sólo quiero asegurarme de que mis conocimientos sobre AUC son correctos.

17voto

user44816 Puntos 8

Depende de cómo entiendas la palabra sensible. El AUC del ROC es sensible al desequilibrio de clases en el sentido de que cuando hay una clase minoritaria, normalmente se define como la clase positiva y tendrá un fuerte impacto en el valor del AUC. Se trata de un comportamiento muy deseable. La precisión, por ejemplo, no es sensible en ese sentido. Puede ser muy alta incluso si la clase minoritaria no se predice bien en absoluto.

En la mayoría de las configuraciones experimentales (bootstrap o validación cruzada, por ejemplo), la distribución de clases de los conjuntos de entrenamiento y prueba debe ser similar. Pero esto es el resultado de cómo se muestrean esos conjuntos, no de utilizar o no ROC. Básicamente, tienes razón al decir que el ROC hace abstracción del desequilibrio de clases en el conjunto de prueba al dar la misma importancia a la sensibilidad y a la especificidad. Cuando el conjunto de entrenamiento no contiene suficientes ejemplos para aprender la clase, esto seguirá afectando al ROC, como debe ser.

Lo que se haga en términos de sobremuestreo y ajuste de parámetros es una cuestión aparte. El ROC sólo puede decirte lo bien que funciona una configuración específica. Entonces puedes probar varias configuraciones y elegir la mejor.

14voto

user1732985 Puntos 1

Creo que no es seguro afirmar que el AUC es insensible al desequilibrio de clases, ya que introduce cierta confusión en el lector. En caso de que quieras decir que la puntuación en sí no detecta el desequilibrio de clases, eso es incorrecto, para eso está el AUC. Si lo que quiere decir es que los cambios en la distribución de clases no influyen en el cálculo del AUC, es cierto.

Resulta que mi supervisor me lo pidió. De hecho, esa es literalmente la ventaja de utilizar el AUC como medida de clasificación en comparación con otras (por ejemplo, la precisión). El AUC te indica más o menos el rendimiento de tu modelo, al tiempo que aborda la cuestión del desequilibrio de clases. Para estar científicamente seguro, preferiría decir que es insensible a cambios en la distribución por clases .

Por ejemplo, y para simplificarlo al máximo, veamos un problema de clasificación binaria en el que predomina la clase positiva.
Digamos que tenemos una distribución muestral y un modelo de predicción aleatoria con Precisión por defecto 0,8 (predice constantemente positivo sin siquiera mirar los datos). Puede ver que este modelo devolverá una alta puntuación de exactitud, aunque su precisión es bastante baja $$Precision = \frac{TP}{TP+FP}$$ porque el número de falsos positivos aumentará y, por tanto, el denominador será mayor...

Lo que hace el AUC, por otro lado, es que le notifica que tiene varios positivos mal clasificados $FP$ a pesar de que tiene una alta precisión debido a la clase dominante, y por lo tanto devolvería una puntuación baja en este caso.
Espero haberlo dejado claro.

Si está interesado en los cambios de AUC con diferentes distribuciones de clase o en el análisis de AUC para otras tareas de clasificación, le recomiendo sin duda alguna Documento de Fawcett en el análisis de la curva ROC. Uno de los mejores que hay y fácil de poner.

12voto

Roberto Puntos 794

(respuesta con 3 años de retraso, pero puede que útil).

ROC es sensible a la cuestión del desequilibrio de clases, lo que significa que favorece a la clase con mayor población únicamente debido a su mayor población. En otras palabras, se inclina por la población más numerosa a la hora de clasificar o predecir.

Esto es realmente problemático. Imaginemos que en diferentes ensayos en los que los datos se someten a rondas de muestreo (por ejemplo, en la validación cruzada), las poblaciones de subclases pueden variar en cada iteración. En tal caso, los modelos entrenados ya no son comparables utilizando una métrica sensible (como la precisión o el ROC). Para remediarlo, o bien el número de cada subclase debe mantenerse fijo, o bien debe utilizarse una métrica insensible. Estadística de habilidad verdadera (también conocido como Índice Youden J ) es una métrica que, en efecto, es insensible a esta cuestión. Estas métricas son muy populares en los ámbitos que tratan datos con desequilibrios extremos, como la previsión meteorológica, la detección de fraudes y, por supuesto, en bioinformática.

Por esta misma razón, se modificó la curva ROC y se introdujo la curva Precision-Recall. La curva PR parece ser menos sensible a este problema.


Para el índice Youden J, véase Youden 1950 , para la estadística True Skill véase Bloomfield et al. 2018 .

Para ver un ejemplo completo, lea esto entrada del blog en Máster en aprendizaje automático .

Para un análisis aplicado a los datos de desequilibrio extremo, véase Ahmadzadeh et al. 2019 .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X