Nota: a lo largo de esta respuesta me refiero a la minimización de la pérdida de entrenamiento y no hablo de criterios de parada como la pérdida de validación. La elección de los criterios de parada no afecta al proceso/conceptos descritos a continuación.
El proceso de entrenamiento de una red neuronal consiste en encontrar el valor mínimo de una función de pérdida $ℒ_X(W)$ , donde $W$ representa una matriz (o varias matrices) de pesos entre neuronas y $X$ representa el conjunto de datos de entrenamiento. Utilizo un subíndice para $X$ para indicar que nuestra minimización de $ℒ$ se produce sólo sobre los pesos $W$ (es decir, buscamos $W$ tal que $ℒ$ se minimiza) mientras que $X$ es fijo.
Ahora, si suponemos que tenemos $P$ elementos en $W$ (es decir, hay $P$ pesos en la red), $ℒ$ es una superficie en un $P+1$ -espacio dimensional. Para dar un análogo visual, imaginemos que tenemos sólo dos pesos de neuronas ( $P=2$ ). Entonces $ℒ$ tiene una interpretación geométrica fácil: es una superficie en un espacio tridimensional. Esto surge del hecho de que para cualesquiera matrices de pesos $W$ la función de pérdida puede evaluarse en $X$ y ese valor se convierte en la elevación de la superficie.
Pero existe el problema de la no-convexidad; la superficie que he descrito tendrá numerosos mínimos locales y, por lo tanto, los algoritmos de descenso de gradiente son susceptibles de quedarse "atascados" en esos mínimos mientras que una solución más profunda/baja/mejor puede estar cerca. Esto puede ocurrir si $X$ no cambia a lo largo de todas las iteraciones de entrenamiento, porque la superficie es fija para un determinado $X$ ; todas sus características son estáticas, incluidos sus diversos mínimos.
Una solución a esto es el entrenamiento por mini lotes combinado con la barajada. Barajando las filas y entrenando sólo en un subconjunto de ellas durante una iteración determinada, $X$ cambios con cada iteración, y en realidad es muy posible que no se realicen dos iteraciones a lo largo de toda la secuencia de iteraciones de entrenamiento y épocas exactamente iguales $X$ . El efecto es que el solucionador puede "rebotar" fácilmente fuera de un mínimo local. Imagina que el solucionador está atascado en un mínimo local en la iteración $i$ con minilotes de formación $X_i$ . Este mínimo local corresponde a $ℒ$ evaluado en un valor particular de pesos; lo llamaremos $ℒ_{X_i}(W_i)$ . En la siguiente iteración, la forma de nuestra superficie de pérdida cambia realmente porque estamos utilizando $X_{i+1}$ Es decir, $ℒ_{X_{i+1}}(W_i)$ puede tener un valor muy diferente al de $ℒ_{X_i}(W_i)$ ¡y es muy posible que no corresponda a un mínimo local! Ahora podemos calcular una actualización del gradiente y continuar con el entrenamiento. Para ser claros: la forma de $ℒ_{X_{i+1}}$ será -en general- diferente a la de $ℒ_{X_{i}}$ . Nótese que aquí me refiero a la función de pérdida $ℒ$ evaluado en un conjunto de entrenamiento $X$ es una superficie completa definida sobre todos los valores posibles de $W$ en lugar de la evaluación de esa pérdida (que es sólo un escalar) para un valor específico de $W$ . Obsérvese también que si se utilizan minilotes sin barajar, sigue habiendo cierto grado de "diversificación" de las superficies de pérdida, pero habrá un número finito (y relativamente pequeño) de superficies de error únicas vistas por el solucionador (concretamente, verá el mismo conjunto exacto de minilotes -y, por tanto, de superficies de pérdida- durante cada época).
Una cosa que he evitado deliberadamente es la discusión sobre el tamaño de los minilotes, porque hay un millón de opiniones al respecto y tiene importantes implicaciones prácticas (se puede conseguir una mayor paralelización con lotes más grandes). Sin embargo, creo que merece la pena mencionar lo siguiente. Porque $ℒ$ se evalúa calculando un valor para cada fila de $X$ (y sumar o sacar la media; es decir, un operador conmutativo) para un conjunto dado de matrices de pesos $W$ la disposición de las filas de $X$ no tiene ningún efecto cuando se utiliza el descenso de gradiente de lote completo (es decir, cuando cada lote es el $X$ y las iteraciones y las épocas son la misma cosa).