Sea $f$ ser un $\alpha$ -fuertemente convexo $L$ -smooth function (i.e. $\nabla f$ es $L$ -Lipschitz). Considerar la actualización por descenso de gradiente: $$x_{t+1} \gets x_t - \eta_t \nabla f(x_t),$$ donde $\eta_t$ son tamaños de paso suficientemente pequeños (a efectos de esta pregunta, puedes suponer que son tan pequeños como necesites que sean).
Pregunta: ¿Tenemos un límite uniforme para $\|\nabla f(x_t)\|$ para todos $t$ ? Quiero decir que $\|\nabla f(x_t)\|$ disminuye (intuitivamente, ya que $\|x_t - x^*\|$ disminuye, donde $x^*$ es el óptimo), y por tanto está acotado por $\|\nabla f(x_0)\|$ pero no pude probarlo. Espero que el peor límite sea quizás algo como $\frac L\alpha \|\nabla f(x_0)\|$ .
El problema es que la convexidad fuerte puede utilizarse para acotar $\|\nabla f(x_t)\|$ desde abajo (utilizando que $|\langle \nabla f(x_t), x_t - x^* \rangle| \ge \alpha \|x_t - x^*\|^2$ ), pero no pude atarlo desde arriba. También pude mostrar esto para funciones de la forma $f(x) = x^\top A x$ (considerando cada vector propio por separado), pero no para funciones generales.
En realidad necesito esto para el Descenso Gradiente estocástico, pero espero que requiera cambios menores tanto para el límite como para la prueba.