Cuando implementé la descentralización de gradientes por mini lotes, simplemente promedié los gradientes de todos los ejemplos del lote de entrenamiento. Sin embargo, me di cuenta de que ahora la tasa de aprendizaje óptima es mucho más alta que para la descentración por gradiente en línea. Mi intuición es que esto se debe a que el gradiente promediado tiene menos ruido y, por tanto, puede seguirse más rápidamente. Así que tal vez también tenga sentido simplemente sumar los gradientes de un lote. Los valores pueden ser positivos y negativos de todos modos.
Sé que es sólo un factor constante que puede equilibrarse utilizando la tasa de aprendizaje. Pero me pregunto cuál es la definición que han acordado los científicos para que yo pueda reproducir los resultados de los artículos sobre redes neuronales.
¿Se suelen dividir los gradientes sumados de un lote por el tamaño del lote?