En el documento del Optimizador Adam El autor afirma en la sección 2.1 que el tamaño efectivo de los pasos tiene dos límites superiores: $\alpha \cdot (1- \beta_1) \ / \sqrt{1 - \beta_2}$ en el caso $1 - \beta_1 > \sqrt{1 - \beta_2}$ y $\alpha$ , otros también. Así que la pregunta es ¿cómo podemos probar esto?
Respuesta
¿Demasiados anuncios?Me alegro de que alguien esté mirando esto también. Primero podemos escribir el $\hat{m}$ y $\hat{v}$ de la siguiente manera:
$$ \hat{m}_t = \frac{1 - \beta_1}{1 - \beta_1^t} \sum_{j=1}^t \beta_1^{t - j} g_j.$$ $$ \hat{v}_t = \frac{1 - \beta_2}{1 - \beta_2^t} \sum_{j=1}^t \beta_2^{t - j} g_j^2. $$
si $1 - \beta_1 > \sqrt{1-\beta_2}$ entonces $ 1 - 2 \beta_1 + \beta_1^2 > 1 - \beta_2 \Rightarrow \beta_2 > 2 \beta_1 - \beta_1^2$ de la cual $\beta_1 < \beta_2$ ya que $\beta_i \in [0, 1]$ .
Para obtener el primer límite, sólo tenemos que mostrar $$\frac{ \sum_{j=1}^t \beta_1^{t - j} g_j}{1 - \beta_1^t} \leq \sqrt{\frac{ \sum_{j=1}^t \beta_2^{t - j} g_j^2}{1 - \beta_2^t}}.$$ Sin la raíz cuadrada en el lado derecho, la desigualdad anterior se desprende de la relación $\beta_1 < \beta_2$ . Con la raíz cuadrada, si el lado derecho es $\leq 1$ también estaría claro. Pero podemos simplemente reducir la escala de $g_j$ para que el lado derecho sea efectivamente $\leq 1$ sin cambiar la conclusión.
Creo que el segundo límite es efectivamente falso. Considere $t = 2$ y $g_2 = 0$ entonces la afirmación se reduce a mostrar que $1 - \beta_1 \leq \sqrt{1-\beta_2}$ implica
$$ \frac{\beta_1}{1 + \beta_1} < \sqrt{\frac{\beta_2}{1 + \beta_2}}.$$
Pero puedo simplemente tomar $\beta_1 = 1$ y $\beta_2 = 0$ para satisfacer la condición. Sin embargo, la desigualdad anterior es claramente falsa en este caso.