En el Papel Adadelta la primera idea propuesta, la idea 1 me parece exactamente igual que RMSprop ( aquí o aquí ), aunque no se denomina así y no se hace referencia a él. ¿Estoy en lo cierto?
Respuestas
¿Demasiados anuncios?Sí, tiene razón.
Como usted, yo también llegué a la misma conclusión examinando Idea 1 (apartado 3.1) del documento Adadelta y la conferencia .
De todos modos, aquí hay más pruebas:
-
Sebastian Ruder escribió en su popular blog Visión general de los algoritmos de optimización por descenso de gradiente :
RMSprop y Adadelta se han desarrollado de forma independiente más o menos al mismo tiempo, a raíz de la necesidad de resolver la radical disminución de las tasas de aprendizaje de Adagrad. De hecho, RMSprop es idéntico al primer vector de actualización de Adadelta que derivamos anteriormente [...].
("el primer vector de actualización" se refiere a la implementación de la Idea 1, que se describe anteriormente en el post).
De hecho, el artículo de Adadelta se publicó en 2012, y la conferencia se dio por primera vez en 2012, por lo que tiene todo el sentido que ambos no se conocieran y, por tanto, ninguno hiciera referencia al otro.
Además, he buscado en los numerosos comentarios al post de Sebastian y no he encontrado a nadie que le rebatiera la afirmación que he citado.
-
Hace poco también hice la misma afirmación en una respuesta en stackoverflow y no fue cuestionado por ello. (Aunque, obviamente, mi respuesta es menos visitado que el puesto de Sebastian por algunos órdenes de magnitud, por lo que esta evidencia es mucho más débil).
Remitiéndonos a los enlaces señalados por usted, RMSprop se centra en la actualización de la tasa de aprendizaje $\eta$ para cada iteración utilizando la acumulación del cuadrado de los gradientes: $r_{t}=\rho r_{t-1} + (1-\rho)g_{t}^{2}$ [donde g es el gradiente] y conectando para encontrar la tasa efectiva de aprendizaje en el paso t utilizando: $\eta_{t}=\frac{\eta}{\sqrt[]{r_{t}+\epsilon}}$ [donde epsilon es la constante de suavizado].
Por otro lado, Adadelta (Concentrado únicamente en la Idea 1) no se centra en absoluto en la actualización de la tasa de aprendizaje para cada paso. El documento explica que la acumulación del cuadrado de los gradientes( $r_{t}=\rho r_{t-1} + (1-\rho)g_{t}^{2}$ ) puede aproximarse mediante la RMS del gradiente:
RMS[ $g_{t}$ ]= $\sqrt{(r_{t}=\rho r_{t-1} + (1-\rho)g_{t}^{2})+\epsilon}$
y, a continuación, describe cómo puede gestionarse la actualización de los parámetros mediante la tasa de aprendizaje $\eta$ (tenga en cuenta que la tasa de aprendizaje no depende del paso). Paso de actualización de la Idea 1 en adadelta: $\delta x_{t}=-\frac{\eta}{RMS[g_{t}]}g_{t}$ [donde $x_{t}$ es el parámetro que debe actualizarse].
Los dos métodos RMSprop y Adadelta difieren entre sí incluso en Idea 1. Más adelante (Idea 2) Adadelta muestra por qué la constante de la tasa de aprendizaje no es importante para este método de optimización en absoluto. La tasa de aprendizaje sólo se utiliza para el paso inicial en la actualización de los parámetros y más tarde la tasa de aprendizaje tiene una relación con las actualizaciones acumulativas. Esto, sin embargo, es otra discusión ya que nuestro OP sólo se refería a la Idea 1 de Adadelta.