La mayoría de los ejemplos que he visto sobre Q learning, se realizan en un mundo determinista. Por ejemplo, en el mundo tradicional de la red, el agente puede finalmente hacer la búsqueda de la ruta explorando y explotando el entorno con una función de recompensa sin conocer la función de probabilidad de transición.
$$Q(s,a) = Q(s,a) + a*[ Reward + discount * Max Q(s',a') - Q(s,a)] $$
Ahora supongamos que la red es un entorno estocástico, un agente puede moverse hacia arriba/izquierda/derecha con 1/3 de probabilidad. ¿Cómo puedo programar el aprendizaje Q, significa que en el cálculo de la $Max Q(s',a')$ ,
$$Max Q(s',a') = Max [ P(up)*Q(s',up) , P(left) *Q(s',down) , P(right) * Q(s, right)]?$$