30 votos

¿Cuál es la diferencia entre episodio y época en el aprendizaje Q profundo?

Estoy intentando entender el famoso paper "Playing Atari with Deep Reinforcement Learning" ( pdf ). No tengo clara la diferencia entre un época y episodio . En algoritmo $1$ el bucle exterior ha terminado episodios mientras que en la figura $2$ el eje x está etiquetado época . En el contexto del aprendizaje por refuerzo, no tengo claro qué significa una época. ¿Es una época un bucle exterior alrededor del bucle del episodio?

enter image description here

enter image description here

31voto

Franck Dernoncourt Puntos 2128
  • un episodio \= una secuencia de estados, acciones y recompensas, que termina con el estado terminal. Por ejemplo, jugar una partida entera puede considerarse como un episodio, alcanzándose el estado terminal cuando un jugador pierde/gana/empata. A veces, se prefiere definir un episodio como varias partidas ( ejemplo : "cada episodio son unas decenas de partidas, porque las partidas llegan hasta la puntuación de 21 para cualquiera de los dos jugadores").
  • un época \= una pasada hacia delante y otra hacia atrás de todos los ejemplos de entrenamiento, en la terminología de las redes neuronales.

En el artículo que mencionas, parecen ser más flexibles con respecto al significado de época, ya que sólo definen una época como una cierta cantidad de actualizaciones de peso. Por lo tanto, se puede considerar que una época es un bucle exterior alrededor del bucle del episodio, como mencionas en la pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X