Adadelta idea 1 vs RMSprop

Question

Adadelta idea 1 vs RMSprop

Preguntado el 13 de Noviembre, 2015: Cuando se hizo la pregunta
3249 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En el Papel Adadelta la primera idea propuesta, la idea 1 me parece exactamente igual que RMSprop ( aquí o aquí ), aunque no se denomina así y no se hace referencia a él. ¿Estoy en lo cierto?

Preguntado el 13 de Noviembre, 2015 por afrosteve

Answer 1

2 Respuestas

Answer 2

3voto

Nini Michaels Puntos 31

Sí, tiene razón.
Como usted, yo también llegué a la misma conclusión examinando Idea 1 (apartado 3.1) del documento Adadelta y la conferencia .

De todos modos, aquí hay más pruebas:

Sebastian Ruder escribió en su popular blog Visión general de los algoritmos de optimización por descenso de gradiente :

RMSprop y Adadelta se han desarrollado de forma independiente más o menos al mismo tiempo, a raíz de la necesidad de resolver la radical disminución de las tasas de aprendizaje de Adagrad. De hecho, RMSprop es idéntico al primer vector de actualización de Adadelta que derivamos anteriormente [...].

("el primer vector de actualización" se refiere a la implementación de la Idea 1, que se describe anteriormente en el post).

De hecho, el artículo de Adadelta se publicó en 2012, y la conferencia se dio por primera vez en 2012, por lo que tiene todo el sentido que ambos no se conocieran y, por tanto, ninguno hiciera referencia al otro.

Además, he buscado en los numerosos comentarios al post de Sebastian y no he encontrado a nadie que le rebatiera la afirmación que he citado.
Hace poco también hice la misma afirmación en una respuesta en stackoverflow y no fue cuestionado por ello. (Aunque, obviamente, mi respuesta es menos visitado que el puesto de Sebastian por algunos órdenes de magnitud, por lo que esta evidencia es mucho más débil).

Respondido el 29 de Septiembre, 2018 por Nini Michaels (31 Puntos )

Answer 3

2voto

Ben Vitale Puntos 833

Remitiéndonos a los enlaces señalados por usted, RMSprop se centra en la actualización de la tasa de aprendizaje $\eta$ para cada iteración utilizando la acumulación del cuadrado de los gradientes: $r_{t}=\rho r_{t-1} + (1-\rho)g_{t}^{2}$ [donde g es el gradiente] y conectando para encontrar la tasa efectiva de aprendizaje en el paso t utilizando: $\eta_{t}=\frac{\eta}{\sqrt[]{r_{t}+\epsilon}}$ [donde epsilon es la constante de suavizado].

Por otro lado, Adadelta (Concentrado únicamente en la Idea 1) no se centra en absoluto en la actualización de la tasa de aprendizaje para cada paso. El documento explica que la acumulación del cuadrado de los gradientes( $r_{t}=\rho r_{t-1} + (1-\rho)g_{t}^{2}$ ) puede aproximarse mediante la RMS del gradiente:

RMS[ $g_{t}$ ]= $\sqrt{(r_{t}=\rho r_{t-1} + (1-\rho)g_{t}^{2})+\epsilon}$

y, a continuación, describe cómo puede gestionarse la actualización de los parámetros mediante la tasa de aprendizaje $\eta$ (tenga en cuenta que la tasa de aprendizaje no depende del paso). Paso de actualización de la Idea 1 en adadelta: $\delta x_{t}=-\frac{\eta}{RMS[g_{t}]}g_{t}$ [donde $x_{t}$ es el parámetro que debe actualizarse].

Los dos métodos RMSprop y Adadelta difieren entre sí incluso en Idea 1. Más adelante (Idea 2) Adadelta muestra por qué la constante de la tasa de aprendizaje no es importante para este método de optimización en absoluto. La tasa de aprendizaje sólo se utiliza para el paso inicial en la actualización de los parámetros y más tarde la tasa de aprendizaje tiene una relación con las actualizaciones acumulativas. Esto, sin embargo, es otra discusión ya que nuestro OP sólo se refería a la Idea 1 de Adadelta.

Respondido el 10 de Diciembre, 2015 por Ben Vitale (833 Puntos )

Adadelta idea 1 vs RMSprop

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

Preguntas sin responder

i-Ciencias.com

Powered by:

Adadelta idea 1 vs RMSprop

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Preguntas sin responder

i-Ciencias.com

Powered by: