15 votos

Descenso de gradiente estocástico para la optimización convexa

¿Qué ocurre si se optimiza un objetivo convexo mediante el descenso de gradiente estocástico? ¿Se consigue una solución global?

11voto

Daniel Mahler Puntos 994

Eventualmente :). Una función objetivo convexa no tiene mínimos locales, por lo que, para cada punto del dominio, la curva integral del campo vectorial del gradiente desde ese punto conduce al mínimo global y el SGD sigue aproximadamente la curva integral siempre que la tasa de aprendizaje sea lo suficientemente pequeña. Ni siquiera es necesario seguir la curva integral muy de cerca, ya que una curva integral de gradiente conduce al mínimo global desde cualquier punto, sólo hay que seguir moviéndose hacia abajo. El verdadero problema es el ritmo de avance, que puede estancarse fácilmente en regiones con poco gradiente. Evitar esto también depende de la tasa de aprendizaje, lo que hace que la tasa de aprendizaje sea crítica para el uso práctico del SGD. Creo que hay garantías teóricas de convergencia si se varía la tasa de aprendizaje de forma inversa al tiempo. El mejor lugar para buscar resultados específicos es en León Bottou y la Papel Pegasos . La investigación actual parece centrarse en variar el ritmo de aprendizaje de forma adaptativa durante el entrenamiento en función del progreso del aprendizaje hasta el momento. Una de las primeras versiones fue el perceptrón pasivo-agresivo. Métodos más recientes como el "gradiente natural" y el algoritmo AROW mantienen de forma adaptativa una tasa de aprendizaje distinta para cada componente del gradiente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X