He estado usando theano para experimentar con LSTMs, y me preguntaba qué métodos de optimización (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) funcionan mejor para LSTMs. ¿Existen trabajos de investigación sobre este tema?
Además, ¿depende la respuesta del tipo de aplicación para la que estoy utilizando el LSTM? Si es así, estoy utilizando LSTMs para la clasificación de texto (donde el texto se convierte primero en vectores de palabras).
Por último, ¿las respuestas serían las mismas o diferentes para las RNN? Agradeceríamos cualquier referencia a trabajos de investigación o cualquier opinión personal.
Los LSTM parecen ser bastante potentes y me interesa aprender más sobre la mejor forma de utilizarlos.