He visto una conclusión similar en muchas discusiones, en el sentido de que a medida que el tamaño del minilote aumenta, la convergencia del SGD se hace más difícil/peor, por ejemplo este documento y esta respuesta . También he oído hablar de personas que utilizan trucos como pequeñas tasas de aprendizaje o tamaños de lote en la etapa inicial para abordar esta dificultad con grandes tamaños de lote.
Sin embargo, parece contrario a la intuición, ya que la pérdida media de un minilote puede considerarse una aproximación a la pérdida esperada sobre la distribución de datos, $$\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)]$$ Cuanto mayor sea el tamaño del lote, más preciso se supone que será. ¿Por qué en la práctica no es así?
He aquí algunos de mis pensamientos (probablemente erróneos) que tratan de explicar.
Los parámetros del modelo dependen en gran medida unos de otros, cuando el lote se hace demasiado grande afectará a demasiados parámetros a la vez, de tal manera que es difícil que los parámetros alcancen una dependencia inherente estable? (como el problema de desplazamiento interno de las covariables mencionado en el papel de normalización de lotes )
¿O cuando casi todos los parámetros son responsables en cada iteración tenderán a aprender patrones implícitos redundantes, lo que reduce la capacidad del modelo? (Me refiero, por ejemplo, a que en los problemas de clasificación de dígitos algunos patrones deberían ser responsables de los puntos y otros de los bordes, pero cuando esto ocurre cada patrón intenta ser responsable de todas las formas).
¿O es porque cuando el tamaño de los lotes se acerca a la escala del conjunto de entrenamiento, los minilotes ya no pueden considerarse i.i.d de la distribución de datos, ya que habrá una gran probabilidad de minilotes correlacionados?
Actualización
Como se señala en la respuesta de Benoit Sánchez, una razón importante es que los minibatches grandes requieren más cálculos para completar una actualización, y la mayoría de los análisis utilizan una cantidad fija de épocas de entrenamiento para la comparación.
Sin embargo, este documento (Wilson y Martínez, 2003) muestra que un tamaño de lote más grande sigue siendo ligeramente desventajoso, incluso con una cantidad suficiente de épocas de entrenamiento. ¿Es este el caso en general?