5 votos

Aprendizaje Q en un entorno estocástico

La mayoría de los ejemplos que he visto sobre Q learning, se realizan en un mundo determinista. Por ejemplo, en el mundo tradicional de la red, el agente puede finalmente hacer la búsqueda de la ruta explorando y explotando el entorno con una función de recompensa sin conocer la función de probabilidad de transición.

$$Q(s,a) = Q(s,a) + a*[ Reward + discount * Max Q(s',a') - Q(s,a)] $$

Ahora supongamos que la red es un entorno estocástico, un agente puede moverse hacia arriba/izquierda/derecha con 1/3 de probabilidad. ¿Cómo puedo programar el aprendizaje Q, significa que en el cálculo de la $Max Q(s',a')$ ,
$$Max Q(s',a') = Max [ P(up)*Q(s',up) , P(left) *Q(s',down) , P(right) * Q(s, right)]?$$

2voto

ciastek Puntos 274

El aprendizaje Q también permite a un agente elegir una acción de forma estocástica (según alguna distribución). En este caso, la recompensa es la recompensa esperada dada esa distribución de acciones. Creo que esto se ajusta a tu caso anterior.

El aprendizaje Q también permite acciones que pueden fallar. Por lo tanto, $Q(s, Left)$ puede llevarle a un estado $s'$ que no es el de la izquierda $s$ (por ejemplo, la acción "falla" con cierta probabilidad). En ese caso, el modelo (MDP, tabla de valores Q, autómata) codificará la posibilidad de fracaso directamente y no se necesitan distribuciones ni valores esperados.

0voto

Mark Stanfill Puntos 51

En realidad, no se hace ninguna exploración al calcular el valor Q tal y como lo has descrito anteriormente. La exploración sólo se produce si se introduce una determinada probabilidad con la que se realiza una acción aleatoria. Calculando el valor Q sólo permite para elegir la acción que maximiza el valor Q dado el estado actual.

En efecto, esto significa elegir el par estado-acción $(s, a) $ con el valor Q más alto tal que $s $ es el estado actual y $a $ es una de las acciones posibles.

Las probabilidades de transición se consideran implícitamente, ya que el valor Q se adapta a las transiciones que realmente ocurren, ya sean elegidas intencionadamente o seleccionadas al azar a través de la exploración o el entorno estocástico. Como ha mencionado Tim, también se pueden elegir las acciones de forma probabilística. En el mejor de los casos, sin embargo, esto es tan bueno como eligiendo de forma determinista el máximo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X