1 votos

Topología de la superficie de error/superficie de coste: descenso del gradiente en los puntos de silla de montar frente a los mínimos locales

No es obvio cómo es la superficie de error/superficie de coste del espacio de pesos en las redes neuronales, salvo que es altamente dimensional (podría tener cientos de miles o millones de dimensiones) y muy complicada/no convexa. Sería muy útil saberlo para hacer la optimización en este espacio, por ejemplo, utilizando el descenso de gradiente para encontrar los mínimos (es decir, el entrenamiento de su red).

Según este documento de junio de 2014 de UMontreal / Yoshua Bengio: http://arxiv.org/pdf/1406.2572v1.pdf En los espacios de alta dimensión, en realidad hay muchos más puntos de silla de montar que mínimos locales.

¿Es esto un hecho bien establecido en la comunidad del aprendizaje profundo? ¿Se ha tenido esto en cuenta y se ha cambiado la forma de optimizar los pesos en las redes?

2voto

lmjohns3 Puntos 579

Dudaría en decir que es "un hecho bien establecido" que hay muchos puntos de ensillamiento en los problemas de modelado de redes neuronales (y otros de alta dimensión), pero los argumentos del artículo que has citado me parecen convincentes.

En los últimos años también se han publicado otros artículos relacionados con el tema; aquí se presentan algunos, los más recientes:

"Tasas de aprendizaje adaptativas equilibradas para la optimización no convexa". Yann N. Dauphin, Harm de Vries, Yoshua Bengio http://arxiv.org/abs/1502.04390

Este artículo (también del grupo de Bengio) analiza los algoritmos de aprendizaje que intentan regularizar explícitamente la diagonal del hessiano inverso, y presenta el SGD equilibrado, que es otro algoritmo en esta línea.

"Caracterización cualitativa de los problemas de optimización de redes neuronales". Ian J. Goodfellow, Oriol Vinyals, Andrew M. Saxe http://arxiv.org/abs/1412.6544

Este artículo muestra que en varios tipos diferentes de problemas comunes de redes neuronales, una búsqueda lineal entre las condiciones iniciales de partida y los valores finales optimizados de los parámetros no suele revelar ningún mínimo local. Parece que hay muchos, pequeños, mínimos locales cerca del "fondo" de la pérdida que son todos más o menos equivalentes en el rendimiento.

"ADADELTA: Un método de tasa de aprendizaje adaptativo". Matthew D. Zeiler http://arxiv.org/abs/1212.5701

ADADELTA, al igual que la SGD equilibrada y el RMSprop, es otro algoritmo de aprendizaje que intenta regularizar la diagonal del hessiano, aunque lo hace de forma muy diferente a la ESGD. No se habla mucho de los mínimos locales en este documento, pero es un trabajo interesante relacionado con el desarrollo de algoritmos de aprendizaje que escalan la tasa de aprendizaje en función del hessiano inverso.

1voto

Charan Puntos 11

La comunidad de redes neuronales se interesa sobre todo por el rendimiento en las aplicaciones, no por la solución rigurosa de ecuaciones o problemas de optimización. Una mejor minimización del error de entrenamiento es interesante, pero si no se mejora el rendimiento en los datos retenidos, no despegará en la comunidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X