Uno de los problemas más citados en el entrenamiento de RNN es el problema del gradiente evanescente [1,2,3,4].
Sin embargo, he encontrado varios artículos de Anton Maximilian Schaefer, Steffen Udluft y Hans-Georg Zimmermann (por ejemplo, [5]) en los que afirman que el problema no existe ni siquiera en una RNN simple, si se utilizan pesos compartidos.
Entonces, ¿cuál es la verdad: existe o no el problema del gradiente evanescente?
-
Aprender dependencias a largo plazo con el descenso de gradiente es difícil de Y.Bengio et al. (1994)
-
El problema del gradiente de fuga durante el aprendizaje de redes neuronales recurrentes y sus soluciones de S.Hochreiter (1997)
-
Flujo gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo de S.Hochreiter et al. (2003)
-
Sobre la dificultad de entrenar redes neuronales recurrentes de R.Pascanu et al. (2012)
-
Aprendizaje de dependencias a largo plazo con redes neuronales recurrentes de A.M. Schaefer et al. (2008)