Estoy de acuerdo con lo que dijo Sean. Voy a añadir este poco para responder a esta pregunta que usted pide, más concretamente:
Se esta regla de actualización de trabajo? Si lo hace, ¿qué ventaja que tiene la SARSA actualización tiene sobre esta regla de actualización?
La SARSA regla de actualización puede converger para diferentes valores de la Q-regla de aprendizaje (que es, como dijo Sean, básicamente lo que se sugiere). Esto es debido a la diferencia entre la política y fuera de la política que él también se describen. Una política de algoritmo (como la SARSA regla de actualización) converge a los valores óptimos para la política que su agente también está utilizando para obtener experiencia. Fuera de la política de algoritmos convergen a los valores de una política que es diferente de la política seguida por el agente para obtener experiencia.
El comportamiento de la política (la que utiliza el agente para obtener experiencia) es típicamente va a ser algo parecido a $\epsilon$voraz, donde con algunos distinto de cero la probabilidad de seleccionar subóptima (al azar) de las acciones. Una política de algoritmo como SARSA toma esto en cuenta, converge para valores que todavía son correctos, dado el conocimiento de que su agente, a veces, va a ser "estúpido" y hacer algo al azar. Q-learning (aprendizaje de políticas con un puro codiciosos política como "objetivo de la política", la política informático valores) se van a converger a los valores que son en realidad sólo va a ser correcta, más tarde, cuando su agente cambia completamente codiciosos política.
Esta distinción puede, por ejemplo, ser importante en situaciones donde usted se preocupa por el aprendizaje "seguro" comportamiento durante el proceso de aprendizaje, donde no solo se preocupan por el aprendizaje óptimo comportamiento a ejecutar después de que el proceso de aprendizaje. Supongamos, por ejemplo, que tiene un robot que se inicia cerca de un acantilado, y tiene que caminar hasta otro punto en el mismo acantilado.
- Un Q-algoritmo de aprendizaje se van a converger a los valores que decirle al agente que resulta óptimo para caminar a la derecha a lo largo del acantilado, porque ese es el camino más corto.
- SARSA se van a converger a los diferentes valores, que le dirá al agente que es óptimo para la primera caminata a una distancia de seguridad desde el acantilado, y luego avanzar hacia la meta, consiguiendo solamente cerca del acantilado de nuevo cuando también está cerca de la de destino. Va a converger a estos valores, ya que él sabe de sí mismo, que a veces va a ser estúpido y tomar una muestra aleatoria de acción. Si pasa a ser cerca del acantilado cuando se toma una al azar de acción, se caerá y usted tiene que comprar un nuevo robot que puede ser muy caro. Así que, va a aprender (porque el aprendizaje de los valores para el $\epsilon$expansivo de la política) que el comportamiento óptimo es el primer pie del acantilado, para que no se caiga, incluso si a veces tarda un azar de la acción.