3 votos

SARSA regla de actualización de

La regla de actualización de la SARSA algoritmo, que se menciona aquí es el siguiente.

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1} + \gamma Q(s_{t+1}, a_{t+1})-Q(s_t,a_t)]$

Mi pregunta es, ¿por qué no puede el valor de las funciones de ser utilizado en el lado derecho de la actualización, en lugar de elegir una muestra de una acción? En otras palabras, ¿por qué no puede la actualización ha de ser la siguiente?

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1} + \gamma V(s_{t+1})-Q(s_t,a_t)]$

Se esta regla de actualización de trabajo? Si lo hace, ¿qué ventaja que tiene la SARSA actualización tiene sobre esta regla de actualización?

3voto

Dennis Soemers Puntos 292

Estoy de acuerdo con lo que dijo Sean. Voy a añadir este poco para responder a esta pregunta que usted pide, más concretamente:

Se esta regla de actualización de trabajo? Si lo hace, ¿qué ventaja que tiene la SARSA actualización tiene sobre esta regla de actualización?

La SARSA regla de actualización puede converger para diferentes valores de la Q-regla de aprendizaje (que es, como dijo Sean, básicamente lo que se sugiere). Esto es debido a la diferencia entre la política y fuera de la política que él también se describen. Una política de algoritmo (como la SARSA regla de actualización) converge a los valores óptimos para la política que su agente también está utilizando para obtener experiencia. Fuera de la política de algoritmos convergen a los valores de una política que es diferente de la política seguida por el agente para obtener experiencia.

El comportamiento de la política (la que utiliza el agente para obtener experiencia) es típicamente va a ser algo parecido a $\epsilon$voraz, donde con algunos distinto de cero la probabilidad de seleccionar subóptima (al azar) de las acciones. Una política de algoritmo como SARSA toma esto en cuenta, converge para valores que todavía son correctos, dado el conocimiento de que su agente, a veces, va a ser "estúpido" y hacer algo al azar. Q-learning (aprendizaje de políticas con un puro codiciosos política como "objetivo de la política", la política informático valores) se van a converger a los valores que son en realidad sólo va a ser correcta, más tarde, cuando su agente cambia completamente codiciosos política.

Esta distinción puede, por ejemplo, ser importante en situaciones donde usted se preocupa por el aprendizaje "seguro" comportamiento durante el proceso de aprendizaje, donde no solo se preocupan por el aprendizaje óptimo comportamiento a ejecutar después de que el proceso de aprendizaje. Supongamos, por ejemplo, que tiene un robot que se inicia cerca de un acantilado, y tiene que caminar hasta otro punto en el mismo acantilado.

  • Un Q-algoritmo de aprendizaje se van a converger a los valores que decirle al agente que resulta óptimo para caminar a la derecha a lo largo del acantilado, porque ese es el camino más corto.
  • SARSA se van a converger a los diferentes valores, que le dirá al agente que es óptimo para la primera caminata a una distancia de seguridad desde el acantilado, y luego avanzar hacia la meta, consiguiendo solamente cerca del acantilado de nuevo cuando también está cerca de la de destino. Va a converger a estos valores, ya que él sabe de sí mismo, que a veces va a ser estúpido y tomar una muestra aleatoria de acción. Si pasa a ser cerca del acantilado cuando se toma una al azar de acción, se caerá y usted tiene que comprar un nuevo robot que puede ser muy caro. Así que, va a aprender (porque el aprendizaje de los valores para el $\epsilon$expansivo de la política) que el comportamiento óptimo es el primer pie del acantilado, para que no se caiga, incluso si a veces tarda un azar de la acción.

2voto

Steve Puntos 477

Es un sentido, puede: Su segunda ecuación es la regla de actualización de Q-aprendizaje. (Ver las definiciones en Ch. 6 de Sutton y Barto del proyecto de edición de Refuerzo de Aprendizaje, junto con la relación $V(S) = \max_a Q(S,a)$. No tengo una fuente escrita para que este a la mano, pero es cubierto en las primeras secciones de este curso.)

La principal diferencia es que SARSA es en la política: Se aprende la $Q$ valores de la política que se sigue. Off-política de los educandos, Q-aprendizaje incluye, mejorar una política diferente de la que se utiliza para generar los datos.

He aquí un resumen de las diferentes ventajas entre dentro y fuera de la política, de nuevo de Sutton y Barto:

En política los métodos son generalmente más simple y se consideran en primer lugar. Fuera de la política requieren métodos adicionales de conceptos y notación, y debido a que los datos se debe a una política diferente, fuera de la política métodos son a menudo de mayor varianza y son muy lentos para converger. Por otro lado, fuera de la política son los métodos más potente y general. Se incluyen en la política de métodos como el caso especial en el que el objetivo y las políticas de comportamiento son los mismos. Fuera de la política métodos también tienen una variedad de usos adicionales en las aplicaciones. Por ejemplo, puede aprender a partir de los datos generados por un convencionales no-aprendizaje de controlador, o de una persona experta.

Ch. 6 del proyecto, vale mucho la pena leer, también incluye una comparación de SARSA y Q-aprendizaje desde diversas perspectivas, que incluyen el rendimiento en un ejemplo y condiciones para la convergencia de la política óptima.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X