28 votos

¿Qué métodos de optimización funcionan mejor para las LSTM?

He estado usando theano para experimentar con LSTMs, y me preguntaba qué métodos de optimización (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) funcionan mejor para LSTMs. ¿Existen trabajos de investigación sobre este tema?

Además, ¿depende la respuesta del tipo de aplicación para la que estoy utilizando el LSTM? Si es así, estoy utilizando LSTMs para la clasificación de texto (donde el texto se convierte primero en vectores de palabras).

Por último, ¿las respuestas serían las mismas o diferentes para las RNN? Agradeceríamos cualquier referencia a trabajos de investigación o cualquier opinión personal.

Los LSTM parecen ser bastante potentes y me interesa aprender más sobre la mejor forma de utilizarlos.

15voto

Kevin Johnson Puntos 123

Irónicamente, los mejores optimizadores para LSTMs son ellos mismos LSTMs: https://arxiv.org/abs/1606.04474 Aprender a aprender por descenso de gradiente por descenso de gradiente.

La idea básica es utilizar una red neuronal (en este caso una red LSTM) para aprender conjuntamente y enseñar los gradientes de la red original. Es lo que se llama metaaprendizaje.

Este método, propuesto por Juergen Schmidhuber en 2000, ha demostrado recientemente que supera a los demás optimizadores en el entrenamiento de RNN. ( véase el artículo original para ver un bonito gráfico)

7voto

Areg Sarkissian Puntos 183

En general, no hay pruebas claras sobre qué método de optimización utilizar en cada caso. Se han realizado algunos análisis sobre el comportamiento de estos métodos en distintos escenarios, pero nada es concluyente. Si quieres profundizar en este tema, te lo recomiendo: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex-optimization.pdf

Para darte al menos una respuesta, yo diría que a menudo la configuración de la rutina de optimización es más importante que la propia rutina.

Además te recomiendo que busques en los periódicos para ver qué técnicas se utilizan. Alex Graves, por ejemplo, ha utilizado RMSprop en la mayoría de sus publicaciones sobre la generación de secuencias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X