Hace un año me encontré con un problema similar y quería saber si las etiquetas de clase desequilibradas conducen a problemas incluso en el caso perfecto de que los datos de entrenamiento y de prueba provengan de la misma distribución, así que hice un pequeño experimento: Entrené un clasificador (árboles de clasificación reforzados) en un conjunto de datos simulados de 6 dimensiones (50.000 filas en total, 75% para el entrenamiento, 25% para las pruebas) con una relación señal-ruido variable (4 valores para la SNR), un desequilibrio de etiquetas de clase variable (10 valores) y 3 esquemas de "muestreo", es decir, formas de tratar el desequilibrio de las etiquetas de clase. Es decir, formas de tratar el desequilibrio: 1.) ignorarlo ("ninguno"), 2.) submuestreo aleatorio ("rus") que conduce a un conjunto de datos equilibrado, normalmente mucho más pequeño que el original, y 3.) asignar pesos a las observaciones inversamente proporcionales a su frecuencia. He representado gráficamente estos 4 conjuntos de 30 (10x3) errores de prueba medidos por el AUC en este gráfico: http://dl.dropbox.com/u/8089659/ImbalancedData.pdf
Se me acabó la paciencia y no promedié los resultados de RUS en varias ejecuciones, por lo que es tan ruidoso, pero claramente para una fracción de clase minoritaria inferior a ~ 0,15-0,2 el submuestreo y los pesos parecen superar al clasificador normal que se entrena en todo el conjunto de datos.Aunque el efecto no es enorme, parece consistente. La belleza de RUS es la facilidad con la que se pueden paralelizar las diferentes muestras.
El script de R para crear los gráficos y ejecutar los experimentos está en: http://dl.dropbox.com/u/8089659/Imbalance.R