Si todos los datos hacen un solo lote ¿tiene sentido barajar los datos? desde mi punto de vista no es necesario porque no tendrás ningún sesgo por lote
Respuesta
¿Demasiados anuncios?Cuando se entrena el modelo con el algoritmo de descenso de gradiente por mini lotes, se desea que los lotes difieran entre sí, pero no demasiado. Cuando los lotes difieren, el aprendizaje a partir de una muestra ligeramente diferente tiene el efecto de regularización, ya que el modelo debe ser lo suficientemente flexible para adaptarse a esos lotes diferentes. Cuando los lotes son demasiado diferentes, puede tener problemas de convergencia, ya que de un lote a otro podría necesitar hacer cambios drásticos en los parámetros. Para obtener buenos resultados, barajamos los datos antes de dividirlos en lotes, de forma que la división de los datos barajados conduzca a la obtención de muestras aleatorias de todo el conjunto de datos.
Cuando se aprende sobre datos completos, no tiene sentido barajar. En cada paso, aplicarías las mismas operaciones a conjunto de datos así que no importaría. Estarías multiplicando todas las muestras por los mismos pesos, añadiendo los mismos sesgos, transformando usando la misma función de activación, etc., así que el orden de las muestras no importaría. Al final usarías una función de coste que normalmente es una suma de pérdidas sobre todas las muestras, y no importa en qué orden tomes la suma.