Estaba leyendo sobre el Optimizador Adam para el Aprendizaje Profundo y se encontró con la siguiente frase en el nuevo libro Aprendizaje profundo por Bengio, Goodfellow y Courville:
En general, se considera que Adam es bastante robusto a la hora de elegir los hiperparámetros, aunque a veces es necesario cambiar la tasa de aprendizaje respecto a la sugerida por defecto.
si esto es cierto es un gran problema porque la búsqueda de hiperparámetros puede ser realmente importante (en mi experiencia al menos) en el rendimiento estadístico de un sistema de aprendizaje profundo. Por lo tanto, mi pregunta es, ¿por qué es Adam robusto a tales parámetros importantes? Especialmente $\beta_1$ y $\beta_2$ ?
He leído el documento de Adam y no da ninguna explicación de por qué funciona con esos parámetros o por qué es robusto. ¿Lo justifican en algún otro lugar?
Además, según he leído el artículo, parece que el número de hiperparámetros que probaron fue muy pequeño, por $\beta_1$ sólo 2 y para $\beta_2$ sólo 3. ¿Cómo puede ser un estudio empírico completo si sólo funciona con hiperparámetros de 2x3?