Perdone de antemano si esta pregunta suena demasiado amplia o demasiado obvia.
Sé con certeza que el descenso por gradiente, es decir, la ecuación de actualización
$x_{k+1} = x_k - \epsilon_k \nabla f(x_k)$
convergen al minimizador único de $f$ con dominio $\text{dom}(f) = \mathbb{R}^n$ siempre que $f$ es estrictamente o fuertemente convexo .
Sin embargo, no recordaba si converge a un minimizador en funciones convexas, y cómo logra esta convergencia.
Lo que me preocupa es que
-
He visto algunos resultados contradictorios en los que en lugar de $x_k$ una secuencia promediada $\hat x_{k} = \frac{1}{K} \sum_k x_k$ converge.
-
También he visto resultados contradictorios en los que el tamaño del paso disminuye $o(1/k)$ vs es constante.
-
También está la cuestión de la convergencia débil frente a la fuerte. No estoy seguro de lo que esto significa exactamente.
He conocido algunos resultados pero son para funciones cuadráticas, no para funciones convexas en general.
¿Alguien puede opinar sobre cómo es este resultado básico en la optimización?