1 votos

Norma de gradiente límite durante el descenso de gradiente para la optimización convexa suave.

Sea $f$ ser un $\alpha$ -fuertemente convexo $L$ -smooth function (i.e. $\nabla f$ es $L$ -Lipschitz). Considerar la actualización por descenso de gradiente: $$x_{t+1} \gets x_t - \eta_t \nabla f(x_t),$$ donde $\eta_t$ son tamaños de paso suficientemente pequeños (a efectos de esta pregunta, puedes suponer que son tan pequeños como necesites que sean).

Pregunta: ¿Tenemos un límite uniforme para $\|\nabla f(x_t)\|$ para todos $t$ ? Quiero decir que $\|\nabla f(x_t)\|$ disminuye (intuitivamente, ya que $\|x_t - x^*\|$ disminuye, donde $x^*$ es el óptimo), y por tanto está acotado por $\|\nabla f(x_0)\|$ pero no pude probarlo. Espero que el peor límite sea quizás algo como $\frac L\alpha \|\nabla f(x_0)\|$ .

El problema es que la convexidad fuerte puede utilizarse para acotar $\|\nabla f(x_t)\|$ desde abajo (utilizando que $|\langle \nabla f(x_t), x_t - x^* \rangle| \ge \alpha \|x_t - x^*\|^2$ ), pero no pude atarlo desde arriba. También pude mostrar esto para funciones de la forma $f(x) = x^\top A x$ (considerando cada vector propio por separado), pero no para funciones generales.

En realidad necesito esto para el Descenso Gradiente estocástico, pero espero que requiera cambios menores tanto para el límite como para la prueba.

2voto

user3749029 Puntos 34

En $f$ es $L$ -suave, tienes

$$ \| \nabla f(x) - \nabla f(x_*)\|_2 \leq L \| x - x_* \|_2 \Rightarrow \| \nabla f(x)\|_2 \leq L \| x - x_* \|_2, $$

desde $\nabla f(x_*) = 0$ en el minimizador.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X