30 votos

Pruebas de clasificación en desequilibrio sobremuestreada datos

Estoy trabajando en grave desequilibrio de datos. En la literatura, se utilizan varios métodos para re-equilibrio de los datos mediante el re-muestreo (por encima o por debajo de muestreo). Dos enfoques son:

  • HIRIÓ: Sintético Minoría Sobre-Técnica de muestreo (HIRIÓ)

  • ADASYN: Adaptación Sintético Enfoque de Muestreo para el Desequilibrio de Aprendizaje (ADASYN)

He implementado ADASYN debido a su naturaleza adaptativa y la facilidad para la extensión de multi-clase de problemas.

Mi pregunta es cómo probar el sobremuestreo de los datos producidos por ADASYN (o cualquier otro sobremuestreo de los métodos). No está claro en el mencionado dos de papel cómo realizaron sus experimentos. Hay dos escenarios:

1 - Muestrean a todo el conjunto de datos, a continuación, dividir a la formación y conjuntos de prueba (o de la validación cruzada).

2 - Después de dividir el conjunto de datos original, realizar la corrección en el conjunto de entrenamiento único y un ensayo sobre los datos originales de la prueba de conjunto (podría realizarse con validación cruzada).

En el primer caso, los resultados son mucho mejores que sin sobremuestreo, pero me preocupa si no es el sobreajuste. Mientras que en el segundo caso los resultados son ligeramente mejores que sin sobremuestreo y mucho peor que el primer caso. Pero la preocupación con el segundo caso es si todas las muestras de la clase minoritaria va para el conjunto de pruebas, entonces no hay beneficio se logra con sobremuestreo.

No estoy seguro de si hay otras opciones de configuración para la prueba de tales datos. A la espera de sus entradas.

25voto

Stefan Wager Puntos 1263

Un par de comentarios:

La opción (1) es una muy mala idea. Copias de el mismo punto en que puede terminar en la capacitación y equipos de prueba. Esto permite que el clasificador de hacer trampa, porque cuando se trata de hacer predicciones acerca de la prueba de conjunto de la clasificadora ya se han visto idénticos puntos en el conjunto de tren. El punto de tener un conjunto de pruebas y un tren es que el conjunto de pruebas debe ser independiente de los trenes.

La opción (2) es honesto. Si usted no tiene suficientes datos, usted podría tratar de usar $k$-fold cross validation. Por ejemplo, puede dividir los datos en 10 pliegues. A continuación, para cada una de las veces de forma individual, el uso que se pliegan como el conjunto de pruebas y el restante 9 pliegues como un tren. Usted puede, a continuación, precisión promedio de entrenamiento en los más de 10 pistas. El punto de este método es que, dado que solo 1/10 de los datos en el conjunto de prueba, es poco probable que todos los de su clase minoritaria muestras de final en la prueba de conjunto.

14voto

Vladimir Alexiev Puntos 197

La segunda (2) opción es la manera correcta de hacerlo. Las muestras sintéticas que se crea con las técnicas de sobremuestreo no son ejemplos reales sino más bien sintético. Estos no son válidos para realizar pruebas mientras que todavía aceptables para entrenamiento. Pretenden modificar el comportamiento del clasificador sin modificar el algoritmo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X