6 votos

¿Puedo tener demasiados datos?

Estoy entrenando un gran conjunto de redes neuronales para una tarea bastante sencilla. 10 de las redes tienen la misma configuración, pero tienen diferentes cantidades de datos. Cada una de las 10 redes tiene una capa oculta con 2 neuronas. La primera red recibe 1.000 ejemplos de entrenamiento, la siguiente 2.000 y la última 10.000.

Los 1.000 ejemplos de entrenamiento de la primera red son un subconjunto de los 2.000 ejemplos de entrenamiento de la segunda red, que a su vez son un subconjunto de los 3.000 ejemplos de entrenamiento de la tercera red, y así sucesivamente.

Entreno mis redes utilizando la construcción en NN-Toolbox en MATLAB, donde uso el algoritmo de Levenberg-Marquardt. Cuando entreno las redes, todas terminan con un error medio cuadrático de alrededor de 0,007 (que parece justo para mi problema particular). La única que difiere, es la primera, que consigue un MSE de alrededor de 0,002.

Después de haber entrenado mis redes con los datos, las pruebo con algunos datos de prueba que no he utilizado para el entrenamiento. El problema es que la red con 1.000 ejemplos de entrenamiento supera con creces a las otras redes. A partir de la puntuación MSE, esto parece justo, pero no entiendo por qué las redes con más datos disponibles, e incluso los datos que utiliza la red, no aprenden mejor los parámetros.

¿Existe el exceso de datos?

2voto

Lars Kotthoff Puntos 253

Parece que las redes que se entrenan con más datos se ajustan demasiado a esos datos y, por tanto, funcionan peor con datos diferentes. El concepto que las redes deben aprender puede ser obvio a partir del pequeño conjunto de datos, pero añadir más datos en el otro conjunto lo oscurece (o incluso lo transforma en un concepto diferente).

Una forma de mitigar este efecto es asegurarse de que la distribución de las diferentes predicciones es aproximadamente la misma en los datos de entrenamiento y de prueba (estratificación). Como alternativa, puede entrenar y evaluar sus redes utilizando validación cruzada .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X