Si miras la documentación http://keras.io/optimizers/ hay un parámetro en el SGD para decay. Sé que esto reduce la tasa de aprendizaje con el tiempo. Sin embargo, no puedo entender exactamente cómo funciona. ¿Es un valor que se multiplica por la tasa de aprendizaje como lr = lr * (1 - decay)
¿es exponencial? Además, ¿cómo puedo ver qué tasa de aprendizaje está utilizando mi modelo? Cuando imprimo model.optimizer.lr.get_value()
después de ejecutar un ajuste durante unos pocos epochs, me devuelve la tasa de aprendizaje original a pesar de haber establecido el decay.
Además, ¿tengo que establecer nesterov=True para usar momento o hay simplemente dos tipos diferentes de momento que puedo usar? Por ejemplo, ¿tiene sentido hacer esto sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)