4 votos

¿Cómo se programan los niveles de dificultad del juego en TD gammon?

Entiendo que el jugador de Diferencia Temporal se entrena haciéndolo jugar contra sí mismo. En tal caso, ¿cómo se programan los niveles de dificultad del juego?

¿Pueden menos iteraciones de entrenamiento crear con éxito jugadores más débiles? ¿O sólo jugadores incompletamente entrenados?

4voto

Xenph Yan Puntos 20883

Creo que utilizar agentes no totalmente entrenados para dificultades inferiores a la de gran maestro podría ser difícil, porque el diseñador del proceso de entrenamiento tiene que centrarse tanto en crear el "mejor" agente al final COMO en establecer los límites correctos entre ambos. Dada la naturaleza a menudo estocástica de equilibrar la exploración y la explotación durante el aprendizaje (por ejemplo, utilizando $\epsilon$ -políticas ávidas), los agentes intermedios podrían no ser estables.

En cambio, creo que sería más fácil aprender primero el estado( $s$ )-acción( $a$ )-valor-función $Q(s,a)$ para el mejor agente y luego tratar de ajustar los parámetros de tal manera, que se seleccionen acciones subóptimas (por ejemplo, seleccionando una acción con menor $Q(s,a)$ o reduciendo el lookahead en la búsqueda heurística, lo que resulta en la siguiente mejor acción sin tener en cuenta los efectos a largo plazo).

La forma de establecer el umbral de los distintos niveles de dificultad, es decir, lo que es "fácil", etc., es un tema aparte (Game Design). El mejor agente define el nivel de gran maestro, pero ¿cuántas partidas debería poder ganar de media un principiante para definir el nivel de dificultad más bajo?

Descargo de responsabilidad Sólo he leído el resumen de TD-Gammon en el libro Aprendizaje por refuerzo: Una introducción de Sutton y Barto, no el documento completo.

2voto

Franck Dernoncourt Puntos 2128

Además de seleccionar las acciones subóptimas, como mencionó steffen, puede actuar sobre los siguientes parámetros al entrenar TD-Gammon:

  • número de juegos en los que se ha entrenado TD-Gammon
  • número de unidades utilizadas en la capa oculta
  • si se utiliza una búsqueda de 1 capa, de 2 capas, de 3 capas, etc.
  • qué característica de ingeniería humana utilizar

Desde http://videolectures.net/rldm2015_silver_reinforcement_learning/?q=reinforcement%20learning (David Silver):

enter image description here

La red neuronal que se utilizó (imagen tomada de http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node108.html ):

enter image description here

0 votos

Voy a repasar el vídeo de la conferencia, pero ¿el gamón de TD no es una diferencia temporal? ¿Cómo entró la capa oculta en la imagen? Tenía la impresión de que TD - significaría un espacio de estados con pesos aleatorios que se refinan con el entrenamiento. El espacio de estados es grande y exhaustivo. ¿Empecé con una comprensión errónea de la gamma TD? Aprendizaje por refuerzo, TD = aprendizaje no supervisado con retroalimentación del entorno. Redes neuronales, capas ocultas, retropropagación = aprendizaje supervisado. La retroalimentación es la diferencia entre los valores correctos y los logrados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X