Acabo de terminar de leer este discusión. Argumentan que el AUC de PR es mejor que el AUC de ROC en un conjunto de datos desequilibrado.
Por ejemplo, tenemos 10 muestras en el conjunto de datos de prueba. 9 muestras son positivas y 1 es negativa. Tenemos un modelo terrible que predice todo lo positivo. Así, tendremos una métrica que TP = 9, FP = 1, TN = 0, FN = 0.
Entonces, Precisión = 0,9, Recall = 1,0. La precisión y la recuperación son muy altas, pero tenemos un clasificador pobre.
Por otro lado, TPR = TP/(TP+FN) = 1,0, FPR = FP/(FP+TN) = 1,0. Como el FPR es muy alto, podemos identificar que no es un buen clasificador.
Está claro que ROC es mejor que PR en conjuntos de datos desequilibrados. ¿Puede alguien explicar por qué es mejor el PR?