En el entrenamiento por mini lotes de una red neuronal, he oído que una práctica importante es barajar los datos de entrenamiento antes de cada época. ¿Puede alguien explicar por qué es útil barajar los datos en cada época?
En la búsqueda en Google, he encontrado las siguientes respuestas:
- ayuda a que la formación converja rápidamente
- evita cualquier sesgo durante el entrenamiento
- evita que el modelo aprenda el orden del entrenamiento
Pero, tengo la dificultad de entender por qué cualquiera de esos efectos es causado por el barajado aleatorio. ¿Puede alguien dar una explicación intuitiva?