¿Cómo se programan los niveles de dificultad del juego en TD gammon?

Question

¿Cómo se programan los niveles de dificultad del juego en TD gammon?

Preguntado el 29 de Septiembre, 2015: Cuando se hizo la pregunta
239 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Entiendo que el jugador de Diferencia Temporal se entrena haciéndolo jugar contra sí mismo. En tal caso, ¿cómo se programan los niveles de dificultad del juego?

¿Pueden menos iteraciones de entrenamiento crear con éxito jugadores más débiles? ¿O sólo jugadores incompletamente entrenados?

Preguntado el 29 de Septiembre, 2015 por Andrew J

Answer 1

2 Respuestas

Answer 2

4voto

Xenph Yan Puntos 20883

Creo que utilizar agentes no totalmente entrenados para dificultades inferiores a la de gran maestro podría ser difícil, porque el diseñador del proceso de entrenamiento tiene que centrarse tanto en crear el "mejor" agente al final COMO en establecer los límites correctos entre ambos. Dada la naturaleza a menudo estocástica de equilibrar la exploración y la explotación durante el aprendizaje (por ejemplo, utilizando $\epsilon$ -políticas ávidas), los agentes intermedios podrían no ser estables.

En cambio, creo que sería más fácil aprender primero el estado( $s$ )-acción( $a$ )-valor-función $Q(s,a)$ para el mejor agente y luego tratar de ajustar los parámetros de tal manera, que se seleccionen acciones subóptimas (por ejemplo, seleccionando una acción con menor $Q(s,a)$ o reduciendo el lookahead en la búsqueda heurística, lo que resulta en la siguiente mejor acción sin tener en cuenta los efectos a largo plazo).

La forma de establecer el umbral de los distintos niveles de dificultad, es decir, lo que es "fácil", etc., es un tema aparte (Game Design). El mejor agente define el nivel de gran maestro, pero ¿cuántas partidas debería poder ganar de media un principiante para definir el nivel de dificultad más bajo?

Descargo de responsabilidad Sólo he leído el resumen de TD-Gammon en el libro Aprendizaje por refuerzo: Una introducción de Sutton y Barto, no el documento completo.

Respondido el 21 de Diciembre, 2015 por Xenph Yan (20883 Puntos )

Answer 3

2voto

Franck Dernoncourt Puntos 2128

Además de seleccionar las acciones subóptimas, como mencionó steffen, puede actuar sobre los siguientes parámetros al entrenar TD-Gammon:

número de juegos en los que se ha entrenado TD-Gammon
número de unidades utilizadas en la capa oculta
si se utiliza una búsqueda de 1 capa, de 2 capas, de 3 capas, etc.
qué característica de ingeniería humana utilizar

Desde http://videolectures.net/rldm2015_silver_reinforcement_learning/?q=reinforcement%20learning (David Silver):

La red neuronal que se utilizó (imagen tomada de http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node108.html ):

Respondido el 28 de Noviembre, 2016 por Franck Dernoncourt (2128 Puntos )

0 votos

Voy a repasar el vídeo de la conferencia, pero ¿el gamón de TD no es una diferencia temporal? ¿Cómo entró la capa oculta en la imagen? Tenía la impresión de que TD - significaría un espacio de estados con pesos aleatorios que se refinan con el entrenamiento. El espacio de estados es grande y exhaustivo. ¿Empecé con una comprensión errónea de la gamma TD? Aprendizaje por refuerzo, TD = aprendizaje no supervisado con retroalimentación del entorno. Redes neuronales, capas ocultas, retropropagación = aprendizaje supervisado. La retroalimentación es la diferencia entre los valores correctos y los logrados.

Comentado el 28 de Noviembre, 2016 por Andrew J

¿Cómo se programan los niveles de dificultad del juego en TD gammon?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo se programan los niveles de dificultad del juego en TD gammon?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: