Actualmente estoy entrenando un clasificador de NN en datos sintéticos generados a partir de un modelo de datos reales, y estos datos sintéticos se generan de manera uniforme en todo el rango de valores esperados en los datos reales. Sin embargo, incluso una inspección rápida de los datos reales muestra que un rango más pequeño de valores dentro del rango más amplio ocurre con mucha más frecuencia. Por ejemplo, suponiendo un rango del 1 al 10 inclusive, los valores 4, 5, 6 y 7 ocurren más que 1 y 10, y los valores 2, 3, 8 y 9 se encuentran entre ellos en términos de frecuencia de ocurrencia.
Mi pregunta es: ¿debería la distribución de los datos de entrenamiento creados ser similar a la de los datos reales? Mi preocupación es que al tener datos de entrenamiento distribuidos de forma uniforme, podría estar ponderando excesivamente la importancia de los datos menos frecuentes y subestimando los más comúnmente ocurridos.