2 votos

¿Deben los datos de entrenamiento de las redes neuronales reflejar las "proporciones" que se esperan en los datos reales?

Actualmente estoy entrenando un clasificador de NN en datos sintéticos generados a partir de un modelo de datos reales, y estos datos sintéticos se generan de manera uniforme en todo el rango de valores esperados en los datos reales. Sin embargo, incluso una inspección rápida de los datos reales muestra que un rango más pequeño de valores dentro del rango más amplio ocurre con mucha más frecuencia. Por ejemplo, suponiendo un rango del 1 al 10 inclusive, los valores 4, 5, 6 y 7 ocurren más que 1 y 10, y los valores 2, 3, 8 y 9 se encuentran entre ellos en términos de frecuencia de ocurrencia.

Mi pregunta es: ¿debería la distribución de los datos de entrenamiento creados ser similar a la de los datos reales? Mi preocupación es que al tener datos de entrenamiento distribuidos de forma uniforme, podría estar ponderando excesivamente la importancia de los datos menos frecuentes y subestimando los más comúnmente ocurridos.

3voto

karatchov Puntos 230

Tienes razón.

La pérdida que optimizas al entrenar una red neuronal es básicamente la suma de alguna función de las filas en tu conjunto de entrenamiento. Esa pérdida actúa como un proxy llamado la "distribución empírica" para la verdadera distribución subyacente a la cual no tienes acceso.

Sin embargo, podría no perjudicar: si tienes muchos datos (ya que los generas) puedes entrenar una red realmente grande. En el límite, tienes una red infinitamente grande con datos de entrenamiento infinitos, y la red simplemente puede recordar todas las entradas y, por lo tanto, predecirlas perfectamente. Esto suena bastante teórico, pero he tenido casos donde alguna forma de ajustar la distribución empírica para que se parezca más a la verdadera distribución (debido al conocimiento previo) no ha ayudado en absoluto. De hecho, el error en los datos de prueba se mantuvo aproximadamente igual para ambos conjuntos de entrenamiento.

Por lo tanto, si perjudica tu problema de entrenamiento específico depende de los datos y el problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X