2 votos

relación entre la política y la recompensa en el aprendizaje por refuerzo

El objetivo del aprendizaje por refuerzo (RL) es hacer que un agente aprenda la política: cuando está en un estado determinado, debe saber qué acción elegir. Al mismo tiempo, una afirmación alternativa sería decir que en el RL, el objetivo del agente es maximizar las recompensas acumuladas.

Sé que la política y la recompensa acumulada son dos cosas distintas. Pero, ¿cómo se relacionan en este contexto?

Además, en una RL discreta, solemos construir una tabla Q de acciones y estados para un agente. A medida que aumenta el número de iteraciones, los valores de la tabla se actualizan. Por ejemplo, si el en un determinado estado $s_1$ Hay tres acciones posibles $a_1, a_2, a_3$ . Digamos que de alguna manera el valor Q bajo $(s_1,a_2)$ es el mayor de los tres valores, entonces significa que el agente probablemente tomará una acción $a_2$ .

¿Cómo se relacionan la política, los valores Q y las recompensas acumuladas?

1voto

James Puntos 138

El objetivo del aprendizaje por refuerzo (RL) es hacer que un agente aprenda la política: cuando está en un estado de partículas, debe saber qué acción elegir. Al mismo tiempo, una afirmación alternativa sería decir que en el RL, el objetivo del agente es maximizar las recompensas acumuladas.

Son dos partes de una declaración: un agente RL aprende la política que maximiza la recompensa acumulada (descontada). Una tabla de valores Q es una representación de una política que se presta al aprendizaje por TD.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X