¿Puedo tener demasiados datos?

Question

¿Puedo tener demasiados datos?

Preguntado el 24 de Abril, 2012: Cuando se hizo la pregunta
661 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy entrenando un gran conjunto de redes neuronales para una tarea bastante sencilla. 10 de las redes tienen la misma configuración, pero tienen diferentes cantidades de datos. Cada una de las 10 redes tiene una capa oculta con 2 neuronas. La primera red recibe 1.000 ejemplos de entrenamiento, la siguiente 2.000 y la última 10.000.

Los 1.000 ejemplos de entrenamiento de la primera red son un subconjunto de los 2.000 ejemplos de entrenamiento de la segunda red, que a su vez son un subconjunto de los 3.000 ejemplos de entrenamiento de la tercera red, y así sucesivamente.

Entreno mis redes utilizando la construcción en NN-Toolbox en MATLAB, donde uso el algoritmo de Levenberg-Marquardt. Cuando entreno las redes, todas terminan con un error medio cuadrático de alrededor de 0,007 (que parece justo para mi problema particular). La única que difiere, es la primera, que consigue un MSE de alrededor de 0,002.

Después de haber entrenado mis redes con los datos, las pruebo con algunos datos de prueba que no he utilizado para el entrenamiento. El problema es que la red con 1.000 ejemplos de entrenamiento supera con creces a las otras redes. A partir de la puntuación MSE, esto parece justo, pero no entiendo por qué las redes con más datos disponibles, e incluso los datos que utiliza la red, no aprenden mejor los parámetros.

¿Existe el exceso de datos?

Preguntado el 24 de Abril, 2012 por Richard Everett

Answer 1

1 Respuestas

Answer 2

2voto

Lars Kotthoff Puntos 253

Parece que las redes que se entrenan con más datos se ajustan demasiado a esos datos y, por tanto, funcionan peor con datos diferentes. El concepto que las redes deben aprender puede ser obvio a partir del pequeño conjunto de datos, pero añadir más datos en el otro conjunto lo oscurece (o incluso lo transforma en un concepto diferente).

Una forma de mitigar este efecto es asegurarse de que la distribución de las diferentes predicciones es aproximadamente la misma en los datos de entrenamiento y de prueba (estratificación). Como alternativa, puede entrenar y evaluar sus redes utilizando validación cruzada .

Respondido el 25 de Abril, 2012 por Lars Kotthoff (253 Puntos )

¿Puedo tener demasiados datos?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Puedo tener demasiados datos?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: