25 votos

¿Suma o media de degradados en (mini) degradado por lotes decente?

Cuando implementé la descentralización de gradientes por mini lotes, simplemente promedié los gradientes de todos los ejemplos del lote de entrenamiento. Sin embargo, me di cuenta de que ahora la tasa de aprendizaje óptima es mucho más alta que para la descentración por gradiente en línea. Mi intuición es que esto se debe a que el gradiente promediado tiene menos ruido y, por tanto, puede seguirse más rápidamente. Así que tal vez también tenga sentido simplemente sumar los gradientes de un lote. Los valores pueden ser positivos y negativos de todos modos.

Sé que es sólo un factor constante que puede equilibrarse utilizando la tasa de aprendizaje. Pero me pregunto cuál es la definición que han acordado los científicos para que yo pueda reproducir los resultados de los artículos sobre redes neuronales.

¿Se suelen dividir los gradientes sumados de un lote por el tamaño del lote?

34voto

Steven Noto Puntos 284

Promedio.

Ejemplos: Apuntes del curso de aprendizaje automático de Andrew Ng en Coursera compilado por Alex Holehouse.

Sumando los gradientes debidos a las muestras individuales se obtiene un gradiente mucho más suave. Cuanto mayor sea el lote, más suave será el gradiente resultante utilizado para actualizar el peso.

Dividir la suma por el tamaño del lote y tomar el gradiente medio tiene el efecto de:

  1. La magnitud del peso no crece desproporcionadamente. Si se añade la regularización L2 a la actualización del peso, se penalizan los valores de peso grandes. Esto suele mejorar el rendimiento de la generalización. Tomar la media, especialmente si los gradientes apuntan en la misma dirección, evita que los pesos sean demasiado grandes.
  2. La magnitud del gradiente es independiente del tamaño del lote. Esto permite comparar los pesos de otros experimentos que utilizan diferentes tamaños de lote.
  3. Contrarrestar el efecto del tamaño del lote con la tasa de aprendizaje puede ser numéricamente equivalente, pero al final se obtiene una tasa de aprendizaje específica para cada aplicación. Esto dificulta la comunicación de los resultados y la configuración experimental si la gente no puede relacionarse con la escala de parámetros que está utilizando y tendrá problemas para reproducir su experimento.

El promediado permite una comparabilidad más clara y mantiene las magnitudes de gradiente independientes del tamaño del lote. A veces, la elección del tamaño del lote se ve limitada por los recursos computacionales de que se dispone y se desea mitigar su efecto al evaluar el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X