Mi tarea es construir un sistema que pueda hacer predicciones sobre las futuras acciones de un jugador en el juego observando su historial de interacción con el entorno.
El aprendizaje por refuerzo consiste en observar el estado, s, actuar (lo que le lleva a otro estado) y recibir una recompensa por realizar esa acción en s.
¿Es posible realizar un aprendizaje por refuerzo como observador? La IA hace predicciones sobre los próximos movimientos (actos) del jugador y recibe recompensas por hacer predicciones, pero no puede controlar lo que el jugador hace realmente y, por tanto, no puede controlar el estado que se produce como resultado de hacer una predicción.
Además, ¿cómo definirías una función de recompensa para algo así? Sé que quieres estar lo más cerca posible del comportamiento del jugador, pero ¿cómo lo determinas de antemano?