Tengo datos de 5 clases y me gustaría construir un clasificador. Sin embargo, el número de vectores de características en cada clase es muy diferente. Una tiene unos 5000, otra unos 200.000, otra unos 1.000.000, otra unos 10.000.000 y otra unos 1.000.000.000.
Como la clase más grande es demasiado grande para construir un clasificador con ella, tendré que reducir la muestra en cualquier caso.
Actualmente estoy usando scikit learn y Random Forests aunque puedo usar otra herramienta si fuera mejor. Si fuera un problema de clasificación binaria podría haber entrenado con clases equilibradas y calcular la curva ROC para obtener la tasa de falsos positivos que puedo tolerar. Sin embargo no tengo ni idea de lo que hay que hacer en este caso multiclase.
¿Existen recomendaciones de buenas prácticas sobre qué hacer en la práctica en esta situación? No quiero que el clasificador simplemente ignore una de las clases, por ejemplo.