Cuando se trabaja con desequilibrado conjuntos de datos, se debe hacer de una bañera de codificación y normalización de los datos antes o después de las técnicas de muestreo (tales como sobremuestreo o submuestreo)?
Respuesta
¿Demasiados anuncios?No juega mucho de una diferencia, pero usted debe hacer la mayoría de los pre-pasos de procesamiento (codificación, la normalización/estandarización, etc) antes de debajo/sobre-muestreo de los datos.
Esto es debido a que muchas de las técnicas de muestreo requieren un modelo simple para ser entrenados (por ejemplo, HIRIÓ utiliza un k-NN algoritmo para generar las muestras, ClusteringCentroids bajo-técnica de muestreo consiste en k-means clustering). Estos modelos tienen un mejor desempeño en la pre-procesado de los conjuntos de datos (por ejemplo, tanto el k-NN y k-means utilizar la distancia euclídea, que requiere que los datos sean normalizadas).
Así que, para que las técnicas de muestreo para trabajar mejor, usted debe previamente realizar el pre-procesamiento de los pasos que usted puede. Dicho esto, si usted usa un azar sobre/bajo-sampler, no creo que juega mucho de una diferencia.