En mi problema, hay 2 etiquetas de clase, pero una de ellas sólo representa el 1% de los datos totales. Primero dividí mi conjunto de datos por train_test_split de tal manera que sólo el 10% es el conjunto de prueba, luego realicé una validación cruzada de 10 pliegues y a continuación se muestra el AUC en el conjunto de validación para 10 pliegues:
0.8339720951796847
0.8339720951796847
0.8340767220106542
0.8331529270822466
0.8293208019913448
0.8474731942921908
0.8545871857725601
0.8235138776279672
que parece tener variaciones muy bajas entre cada pliegue. Sin embargo, en el conjunto de prueba AUC=0,543546.
La situación es aún peor si utilizo StratifiedShuffleSplit: mientras que el AUC medio para la validación cruzada sigue siendo de alrededor de 0,85, el AUC en el conjunto de prueba es de 0,2.
Mi pregunta es: ¿Podemos utilizar el AUC como indicador de sobreajuste cuando el conjunto de datos está muy desequilibrado? Dado que el conjunto de pruebas ahora es muy pequeño y no se debe esperar que el AUC sea tan preciso como cuando se realiza una validación cruzada.