Estoy lidiando con un problema de clasificación de imágenes, con un conjunto de datos desequilibrado de múltiples clases (la clase más grande tiene 4000 muestras y la más pequeña tiene 110 muestras) con 50 clases y 24000 muestras.
Estoy utilizando una red neuronal para realizar la tarea. Estoy adoptando un conjunto de métricas para evaluar el modelo. A continuación, proporciono las métricas con los valores logrados por mi modelo:
- exactitud: 0.93
- macro-f1: 0.86
- f1 ponderado: 0.93
- precisión macro: 0.87
- precisión ponderada: 0.93
- recuperación macro: 0.85
- recuperación ponderada: 0.93
- AUROC macro: 0.99
- AUROC ponderado: 0.99
Estos valores son promedios obtenidos en un proceso de validación cruzada de 5 pliegues. Es decir, las métricas se obtienen clasificando cada pliegue de prueba. Después, los valores de cada métrica se promedian.
Sin embargo, no estoy seguro acerca de los valores de AUROC (macro y ponderado). Creo que estos valores son "demasiado buenos para ser correctos".
¿Qué piensas? ¿Puedes proporcionar algunas pautas para asegurarte de que esto sea correcto para encontrar mi error? ¿Es AUROC adecuado para evaluar el modelo en este contexto?