Estoy entrenando un gran conjunto de redes neuronales para una tarea bastante sencilla. 10 de las redes tienen la misma configuración, pero tienen diferentes cantidades de datos. Cada una de las 10 redes tiene una capa oculta con 2 neuronas. La primera red recibe 1.000 ejemplos de entrenamiento, la siguiente 2.000 y la última 10.000.
Los 1.000 ejemplos de entrenamiento de la primera red son un subconjunto de los 2.000 ejemplos de entrenamiento de la segunda red, que a su vez son un subconjunto de los 3.000 ejemplos de entrenamiento de la tercera red, y así sucesivamente.
Entreno mis redes utilizando la construcción en NN-Toolbox en MATLAB, donde uso el algoritmo de Levenberg-Marquardt. Cuando entreno las redes, todas terminan con un error medio cuadrático de alrededor de 0,007 (que parece justo para mi problema particular). La única que difiere, es la primera, que consigue un MSE de alrededor de 0,002.
Después de haber entrenado mis redes con los datos, las pruebo con algunos datos de prueba que no he utilizado para el entrenamiento. El problema es que la red con 1.000 ejemplos de entrenamiento supera con creces a las otras redes. A partir de la puntuación MSE, esto parece justo, pero no entiendo por qué las redes con más datos disponibles, e incluso los datos que utiliza la red, no aprenden mejor los parámetros.
¿Existe el exceso de datos?