Keras, ¿cómo funciona la decaída de la tasa de aprendizaje de SGD?

Question

Keras, ¿cómo funciona la decaída de la tasa de aprendizaje de SGD?

Preguntado el 7 de Mayo, 2016: Cuando se hizo la pregunta
28203 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Si miras la documentación http://keras.io/optimizers/ hay un parámetro en el SGD para decay. Sé que esto reduce la tasa de aprendizaje con el tiempo. Sin embargo, no puedo entender exactamente cómo funciona. ¿Es un valor que se multiplica por la tasa de aprendizaje como lr = lr * (1 - decay) ¿es exponencial? Además, ¿cómo puedo ver qué tasa de aprendizaje está utilizando mi modelo? Cuando imprimo model.optimizer.lr.get_value() después de ejecutar un ajuste durante unos pocos epochs, me devuelve la tasa de aprendizaje original a pesar de haber establecido el decay.

Además, ¿tengo que establecer nesterov=True para usar momento o hay simplemente dos tipos diferentes de momento que puedo usar? Por ejemplo, ¿tiene sentido hacer esto sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

Preguntado el 7 de Mayo, 2016 por chasep255

Answer 1

1 Respuestas

Answer 2

28voto

Tim Puntos 219

La documentación a la que te refieres incluye una referencia al código fuente de Python (simplemente haz clic en el enlace [Source] en el lugar correspondiente), que se puede utilizar para responder tus preguntas. Aquí está la línea más relevante, mostrando cómo decay modifica la tasa de aprendizaje:

lr = self.lr * (1. / (1. + self.decay * self.iterations))

La opción nesterov no tiene que establecerse en True para que se use el momentum; resulta en que se use el momentum de una manera diferente, como nuevamente se puede ver en el código fuente:

v = self.momentum * m - lr * g  # velocidad

if self.nesterov:
    new_p = p + self.momentum * v - lr * g
else:
    new_p = p + v

Respondido el 7 de Mayo, 2016 por Tim (219 Puntos )

1 votos

¿y self.iterations se refiere al número de pasos individuales de SGD, no al número de épocas, verdad?

Comentado el 7 de Noviembre, 2018 por Sheff

Keras, ¿cómo funciona la decaída de la tasa de aprendizaje de SGD?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Keras, ¿cómo funciona la decaída de la tasa de aprendizaje de SGD?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: