4 votos

Q-Learning: estado independiente de la acción del agente

¿Podría el estado ser independiente de la acción elegida por el agente? Tendríamos una situación en la que el agente aprende sólo qué acciones son las mejores en estados específicos sin tener ningún impacto en esos estados (los estados cambian con cada iteración siguiente). Si creo tal algoritmo, ¿creará algo sensato o el agente debería tener siempre un impacto en el siguiente estado cuando realice una acción?

7voto

Dennis Soemers Puntos 292

Dado que está utilizando el q-learning asumo que su pregunta se refiere a la $Q$ -Aprendizaje del algoritmo.

Normalmente asumimos en el Aprendizaje por Refuerzo (RL) que la acción de un agente tendrá cierto nivel de influencia en el estado en el que terminamos, pero en realidad eso aún cubre su caso.

Dejemos que $P(S, A, S')$ denotan la probabilidad de que terminemos en el estado $S'$ después de ejecutar la acción $A$ en el estado $S$ . Esencialmente, lo que usted dice es que, dado cualquier par de estados $S$ y $S'$ :

\begin {Edición} P(S, A_1, S') = P(S, A_2, S') = \dots = P(S, A_n, S'). \end {Ecuación}

Esto es simplemente un caso especial del caso más general, así que ciertamente está permitido y seguramente aprenderás algo útil.

$Q$ -Sin embargo, el aprendizaje puede ser innecesariamente complejo para este caso. Funcionará, pero algoritmos más sencillos pueden funcionar igual de bien o mejor en un caso tan específico (concretamente; algoritmos que, a diferencia de $Q$ -aprendizaje, explotan el conocimiento de las propiedades específicas que ha descrito y no tienen que funcionar también en casos más generales).

Por ejemplo, en el caso concreto que ha descrito, puede ser conveniente considerar Algoritmos de bandidos multiarmados contextuales donde su estado actual $S$ es el contexto, y las acciones $A$ son los brazos. Estos algoritmos tienen como objetivo optimizar la recompensa inmediata de un paso de la selección de una acción $A$ en un estado $S$ mientras que un algoritmo como $Q$ -El objetivo del aprendizaje es optimizar las recompensas descontadas a largo plazo, de las cuales la recompensa inmediata de un paso es sólo un componente. En tu caso, en el que la acción seleccionada no influye en el estado en el que acabas, esos dos objetivos son equivalentes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X