6 votos

El límite superior del tamaño efectivo de los pasos del optimizador Adam

En el documento del Optimizador Adam El autor afirma en la sección 2.1 que el tamaño efectivo de los pasos tiene dos límites superiores: $\alpha \cdot (1- \beta_1) \ / \sqrt{1 - \beta_2}$ en el caso $1 - \beta_1 > \sqrt{1 - \beta_2}$ y $\alpha$ , otros también. Así que la pregunta es ¿cómo podemos probar esto?

2voto

John Jiang Puntos 223

Me alegro de que alguien esté mirando esto también. Primero podemos escribir el $\hat{m}$ y $\hat{v}$ de la siguiente manera:

$$ \hat{m}_t = \frac{1 - \beta_1}{1 - \beta_1^t} \sum_{j=1}^t \beta_1^{t - j} g_j.$$ $$ \hat{v}_t = \frac{1 - \beta_2}{1 - \beta_2^t} \sum_{j=1}^t \beta_2^{t - j} g_j^2. $$

si $1 - \beta_1 > \sqrt{1-\beta_2}$ entonces $ 1 - 2 \beta_1 + \beta_1^2 > 1 - \beta_2 \Rightarrow \beta_2 > 2 \beta_1 - \beta_1^2$ de la cual $\beta_1 < \beta_2$ ya que $\beta_i \in [0, 1]$ .

Para obtener el primer límite, sólo tenemos que mostrar $$\frac{ \sum_{j=1}^t \beta_1^{t - j} g_j}{1 - \beta_1^t} \leq \sqrt{\frac{ \sum_{j=1}^t \beta_2^{t - j} g_j^2}{1 - \beta_2^t}}.$$ Sin la raíz cuadrada en el lado derecho, la desigualdad anterior se desprende de la relación $\beta_1 < \beta_2$ . Con la raíz cuadrada, si el lado derecho es $\leq 1$ también estaría claro. Pero podemos simplemente reducir la escala de $g_j$ para que el lado derecho sea efectivamente $\leq 1$ sin cambiar la conclusión.

Creo que el segundo límite es efectivamente falso. Considere $t = 2$ y $g_2 = 0$ entonces la afirmación se reduce a mostrar que $1 - \beta_1 \leq \sqrt{1-\beta_2}$ implica

$$ \frac{\beta_1}{1 + \beta_1} < \sqrt{\frac{\beta_2}{1 + \beta_2}}.$$

Pero puedo simplemente tomar $\beta_1 = 1$ y $\beta_2 = 0$ para satisfacer la condición. Sin embargo, la desigualdad anterior es claramente falsa en este caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X