El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que lo hace con el carrusel de errores constantes (CEC), que en el diagrama siguiente (de Greff et al. ) corresponden al bucle alrededor de célula .
(fuente: <a href="https://deeplearning4j.org/img/greff_lstm_diagram.png" rel="noreferrer">deeplearning4j.org </a>)
Y entiendo que esa parte puede verse como una especie de función identidad, por lo que la derivada es uno y el gradiente se mantiene constante.
Lo que no entiendo es cómo no se desvanece debido a las otras funciones de activación ? Las puertas de entrada, salida y olvido utilizan una sigmoide, cuya derivada es como máximo 0,25, y g y h eran tradicionalmente tanh . ¿Cómo es que la retropropagación a través de estos no hace desaparecer el gradiente?