1 votos

aprendizaje por refuerzo como observador

Mi tarea es construir un sistema que pueda hacer predicciones sobre las futuras acciones de un jugador en el juego observando su historial de interacción con el entorno.

El aprendizaje por refuerzo consiste en observar el estado, s, actuar (lo que le lleva a otro estado) y recibir una recompensa por realizar esa acción en s.

¿Es posible realizar un aprendizaje por refuerzo como observador? La IA hace predicciones sobre los próximos movimientos (actos) del jugador y recibe recompensas por hacer predicciones, pero no puede controlar lo que el jugador hace realmente y, por tanto, no puede controlar el estado que se produce como resultado de hacer una predicción.

Además, ¿cómo definirías una función de recompensa para algo así? Sé que quieres estar lo más cerca posible del comportamiento del jugador, pero ¿cómo lo determinas de antemano?

3voto

Ivy_cro Puntos 21

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X