Estoy trabajando en grave desequilibrio de datos. En la literatura, se utilizan varios métodos para re-equilibrio de los datos mediante el re-muestreo (por encima o por debajo de muestreo). Dos enfoques son:
HIRIÓ: Sintético Minoría Sobre-Técnica de muestreo (HIRIÓ)
ADASYN: Adaptación Sintético Enfoque de Muestreo para el Desequilibrio de Aprendizaje (ADASYN)
He implementado ADASYN debido a su naturaleza adaptativa y la facilidad para la extensión de multi-clase de problemas.
Mi pregunta es cómo probar el sobremuestreo de los datos producidos por ADASYN (o cualquier otro sobremuestreo de los métodos). No está claro en el mencionado dos de papel cómo realizaron sus experimentos. Hay dos escenarios:
1 - Muestrean a todo el conjunto de datos, a continuación, dividir a la formación y conjuntos de prueba (o de la validación cruzada).
2 - Después de dividir el conjunto de datos original, realizar la corrección en el conjunto de entrenamiento único y un ensayo sobre los datos originales de la prueba de conjunto (podría realizarse con validación cruzada).
En el primer caso, los resultados son mucho mejores que sin sobremuestreo, pero me preocupa si no es el sobreajuste. Mientras que en el segundo caso los resultados son ligeramente mejores que sin sobremuestreo y mucho peor que el primer caso. Pero la preocupación con el segundo caso es si todas las muestras de la clase minoritaria va para el conjunto de pruebas, entonces no hay beneficio se logra con sobremuestreo.
No estoy seguro de si hay otras opciones de configuración para la prueba de tales datos. A la espera de sus entradas.