22 votos

Por qué AUC =1 incluso clasificador tiene mal clasificado de la mitad de las muestras?

Estoy utilizando un clasificador que devuelve probabilidades. Para calcular las AUC, estoy usando pROC R-package. La salida de probabilidades de clasificador son:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probs muestra la probabilidad de estar en la clase '1'. Como se muestra, el clasificador ha clasificado todos los de las muestras de la clase '1'.

La verdadera etiqueta de vector es:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Como se muestra, clasificador tiene mal clasificado 5 muestras. Pero, el AUC es:

pROC::auc(truel, probs)
Area under the curve: 1

Podría usted por favor me explique por qué sucede?

26voto

Paulius Puntos 369

Las otras respuestas explicar lo que está pasando, pero pensé que una foto puede ser agradable.

Se puede ver que las clases están perfectamente separadas, por lo que el AUC es de 1, pero umbralización en 1/2 producirá un error en la clasificación de la tasa de 50%.

probs

25voto

John Richardson Puntos 1197

El AUC es una medida de la capacidad de clasificar los ejemplos de acuerdo a la probabilidad de pertenencia a la clase. Por lo tanto, si todas las probabilidades están por encima de 0,5 usted todavía puede tener un AUC de uno si todos los patrones positivos tienen más probabilidades de todos los patrones negativos. En este caso no va a ser una decisión de umbral que es superior a 0,5, lo que daría una tasa de error de cero. Tenga en cuenta que debido a las AUC sólo mide el ranking de las probabilidades, no nos dice si las probabilidades están bien calibrados (por ejemplo, no hay ningún sesgo sistemático), si la calibración de las probabilidades, es importante mirar la cruz de entropía métrica.

22voto

user777 Puntos 10934

Las muestras no estaban "mal clasificado". El 0 ejemplos son clasificados estrictamente menor que el 1 ejemplos. AUROC está haciendo exactamente lo que se define a hacer, que es la medida de la probabilidad de que un seleccionado al azar 1 es el puesto más alto que un seleccionado al azar 0. En este ejemplo, esto siempre es cierto, por lo que es una probabilidad de 1 evento.

Tom Fawcett tiene una gran expositiva artículo acerca de las curvas ROC. Te sugiero que a partir de ahí.

Tom Fawcett. "Una Introducción al Análisis ROC." Patrón De Reconocimiento De Letras. 2005.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X