El descenso gradual tiene el problema de quedarse atascado en los mínimos locales. Tenemos que ejecutar el descenso de gradiente exponencialmente para encontrar los mínimos globales.
¿Puede alguien informarme sobre alguna alternativa de descenso de gradiente aplicada al aprendizaje de redes neuronales, junto con sus pros y sus contras?