13 votos

Normalización/estandarización: se Debe hacer esto antes de sobremuestreo/submuestreo, los datos o después?

Cuando se trabaja con desequilibrado conjuntos de datos, se debe hacer de una bañera de codificación y normalización de los datos antes o después de las técnicas de muestreo (tales como sobremuestreo o submuestreo)?

16voto

Djib2011 Puntos 693

No juega mucho de una diferencia, pero usted debe hacer la mayoría de los pre-pasos de procesamiento (codificación, la normalización/estandarización, etc) antes de debajo/sobre-muestreo de los datos.

Esto es debido a que muchas de las técnicas de muestreo requieren un modelo simple para ser entrenados (por ejemplo, HIRIÓ utiliza un k-NN algoritmo para generar las muestras, ClusteringCentroids bajo-técnica de muestreo consiste en k-means clustering). Estos modelos tienen un mejor desempeño en la pre-procesado de los conjuntos de datos (por ejemplo, tanto el k-NN y k-means utilizar la distancia euclídea, que requiere que los datos sean normalizadas).

Así que, para que las técnicas de muestreo para trabajar mejor, usted debe previamente realizar el pre-procesamiento de los pasos que usted puede. Dicho esto, si usted usa un azar sobre/bajo-sampler, no creo que juega mucho de una diferencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X