Recientemente aprendí el descenso de gradiente y claramente se atasca en mínimos locales cuando se aplica a funciones no convexas.
¿No podemos patear aleatoriamente los valores entre pasos cuando iteramos?
Algo así como un túnel cuántico. Eso aumentaría drásticamente la probabilidad de alcanzar el mínimo global.