Dudaría en decir que es "un hecho bien establecido" que hay muchos puntos de ensillamiento en los problemas de modelado de redes neuronales (y otros de alta dimensión), pero los argumentos del artículo que has citado me parecen convincentes.
En los últimos años también se han publicado otros artículos relacionados con el tema; aquí se presentan algunos, los más recientes:
"Tasas de aprendizaje adaptativas equilibradas para la optimización no convexa". Yann N. Dauphin, Harm de Vries, Yoshua Bengio http://arxiv.org/abs/1502.04390
Este artículo (también del grupo de Bengio) analiza los algoritmos de aprendizaje que intentan regularizar explícitamente la diagonal del hessiano inverso, y presenta el SGD equilibrado, que es otro algoritmo en esta línea.
"Caracterización cualitativa de los problemas de optimización de redes neuronales". Ian J. Goodfellow, Oriol Vinyals, Andrew M. Saxe http://arxiv.org/abs/1412.6544
Este artículo muestra que en varios tipos diferentes de problemas comunes de redes neuronales, una búsqueda lineal entre las condiciones iniciales de partida y los valores finales optimizados de los parámetros no suele revelar ningún mínimo local. Parece que hay muchos, pequeños, mínimos locales cerca del "fondo" de la pérdida que son todos más o menos equivalentes en el rendimiento.
"ADADELTA: Un método de tasa de aprendizaje adaptativo". Matthew D. Zeiler http://arxiv.org/abs/1212.5701
ADADELTA, al igual que la SGD equilibrada y el RMSprop, es otro algoritmo de aprendizaje que intenta regularizar la diagonal del hessiano, aunque lo hace de forma muy diferente a la ESGD. No se habla mucho de los mínimos locales en este documento, pero es un trabajo interesante relacionado con el desarrollo de algoritmos de aprendizaje que escalan la tasa de aprendizaje en función del hessiano inverso.