Estoy intentando entender el famoso paper "Playing Atari with Deep Reinforcement Learning" ( pdf ). No tengo clara la diferencia entre un época y episodio . En algoritmo $1$ el bucle exterior ha terminado episodios mientras que en la figura $2$ el eje x está etiquetado época . En el contexto del aprendizaje por refuerzo, no tengo claro qué significa una época. ¿Es una época un bucle exterior alrededor del bucle del episodio?
Respuesta
¿Demasiados anuncios?- un episodio \= una secuencia de estados, acciones y recompensas, que termina con el estado terminal. Por ejemplo, jugar una partida entera puede considerarse como un episodio, alcanzándose el estado terminal cuando un jugador pierde/gana/empata. A veces, se prefiere definir un episodio como varias partidas ( ejemplo : "cada episodio son unas decenas de partidas, porque las partidas llegan hasta la puntuación de 21 para cualquiera de los dos jugadores").
- un época \= una pasada hacia delante y otra hacia atrás de todos los ejemplos de entrenamiento, en la terminología de las redes neuronales.
En el artículo que mencionas, parecen ser más flexibles con respecto al significado de época, ya que sólo definen una época como una cierta cantidad de actualizaciones de peso. Por lo tanto, se puede considerar que una época es un bucle exterior alrededor del bucle del episodio, como mencionas en la pregunta.