¿Qué métodos de optimización funcionan mejor para las LSTM?

Question

¿Qué métodos de optimización funcionan mejor para las LSTM?

Preguntado el 24 de Agosto, 2015: Cuando se hizo la pregunta
19797 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

He estado usando theano para experimentar con LSTMs, y me preguntaba qué métodos de optimización (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) funcionan mejor para LSTMs. ¿Existen trabajos de investigación sobre este tema?

Además, ¿depende la respuesta del tipo de aplicación para la que estoy utilizando el LSTM? Si es así, estoy utilizando LSTMs para la clasificación de texto (donde el texto se convierte primero en vectores de palabras).

Por último, ¿las respuestas serían las mismas o diferentes para las RNN? Agradeceríamos cualquier referencia a trabajos de investigación o cualquier opinión personal.

Los LSTM parecen ser bastante potentes y me interesa aprender más sobre la mejor forma de utilizarlos.

Preguntado el 24 de Agosto, 2015 por Roberto

Answer 1

2 Respuestas

Answer 2

15voto

Kevin Johnson Puntos 123

Irónicamente, los mejores optimizadores para LSTMs son ellos mismos LSTMs: https://arxiv.org/abs/1606.04474 Aprender a aprender por descenso de gradiente por descenso de gradiente.

La idea básica es utilizar una red neuronal (en este caso una red LSTM) para aprender conjuntamente y enseñar los gradientes de la red original. Es lo que se llama metaaprendizaje.

Este método, propuesto por Juergen Schmidhuber en 2000, ha demostrado recientemente que supera a los demás optimizadores en el entrenamiento de RNN. ( véase el artículo original para ver un bonito gráfico)

Respondido el 4 de Septiembre, 2016 por Kevin Johnson (123 Puntos )

Answer 3

7voto

Areg Sarkissian Puntos 183

En general, no hay pruebas claras sobre qué método de optimización utilizar en cada caso. Se han realizado algunos análisis sobre el comportamiento de estos métodos en distintos escenarios, pero nada es concluyente. Si quieres profundizar en este tema, te lo recomiendo: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex-optimization.pdf

Para darte al menos una respuesta, yo diría que a menudo la configuración de la rutina de optimización es más importante que la propia rutina.

Además te recomiendo que busques en los periódicos para ver qué técnicas se utilizan. Alex Graves, por ejemplo, ha utilizado RMSprop en la mayoría de sus publicaciones sobre la generación de secuencias.

Respondido el 1 de Noviembre, 2015 por Areg Sarkissian (183 Puntos )

¿Qué métodos de optimización funcionan mejor para las LSTM?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué métodos de optimización funcionan mejor para las LSTM?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: