aprendizaje por refuerzo como observador

Question

aprendizaje por refuerzo como observador

Preguntado el 3 de Noviembre, 2014: Cuando se hizo la pregunta
203 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Mi tarea es construir un sistema que pueda hacer predicciones sobre las futuras acciones de un jugador en el juego observando su historial de interacción con el entorno.

El aprendizaje por refuerzo consiste en observar el estado, s, actuar (lo que le lleva a otro estado) y recibir una recompensa por realizar esa acción en s.

¿Es posible realizar un aprendizaje por refuerzo como observador? La IA hace predicciones sobre los próximos movimientos (actos) del jugador y recibe recompensas por hacer predicciones, pero no puede controlar lo que el jugador hace realmente y, por tanto, no puede controlar el estado que se produce como resultado de hacer una predicción.

Además, ¿cómo definirías una función de recompensa para algo así? Sé que quieres estar lo más cerca posible del comportamiento del jugador, pero ¿cómo lo determinas de antemano?

Preguntado el 3 de Noviembre, 2014 por myselfesteem

Answer 1

1 Respuestas

Answer 2

3voto

Ivy_cro Puntos 21

Tienes que mirar el Aprendizaje del Aprendizaje:

http://ai.stanford.edu/~ang/papers/icml04-apprentice.pdf http://en.wikipedia.org/wiki/Apprenticeship_learning

Respondido el 5 de Noviembre, 2014 por Ivy_cro (21 Puntos )

aprendizaje por refuerzo como observador

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

Preguntas sin responder

i-Ciencias.com

Powered by:

aprendizaje por refuerzo como observador

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Preguntas sin responder

i-Ciencias.com

Powered by: