El objetivo del aprendizaje por refuerzo (RL) es hacer que un agente aprenda la política: cuando está en un estado determinado, debe saber qué acción elegir. Al mismo tiempo, una afirmación alternativa sería decir que en el RL, el objetivo del agente es maximizar las recompensas acumuladas.
Sé que la política y la recompensa acumulada son dos cosas distintas. Pero, ¿cómo se relacionan en este contexto?
Además, en una RL discreta, solemos construir una tabla Q de acciones y estados para un agente. A medida que aumenta el número de iteraciones, los valores de la tabla se actualizan. Por ejemplo, si el en un determinado estado $s_1$ Hay tres acciones posibles $a_1, a_2, a_3$ . Digamos que de alguna manera el valor Q bajo $(s_1,a_2)$ es el mayor de los tres valores, entonces significa que el agente probablemente tomará una acción $a_2$ .
¿Cómo se relacionan la política, los valores Q y las recompensas acumuladas?