Cuándo elegir SARSA frente a Q Learning

Question

Cuándo elegir SARSA frente a Q Learning

Preguntado el 4 de Febrero, 2018: Cuando se hizo la pregunta
26289 visitas: Cuantas visitas ha tenido la pregunta
0 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tanto SARSA como Q Learning son algoritmos de aprendizaje por refuerzo que funcionan de forma similar. La diferencia más llamativa es que SARSA es on policy mientras que Q Learning es off policy. Las reglas de actualización son las siguientes:

Q Aprender:

$$Q(s_t,a_t)Q(s_t,a_t)+[r_{t+1}+\max_{a'}Q(s_{t+1},a')Q(s_t,a_t)]$$

SARSA:

$$Q(s_t,a_t)Q(s_t,a_t)+[r_{t+1}+Q(s_{t+1},a_{t+1})Q(s_t,a_t)]$$

donde $s_t,\,a_t$ y $r_t$ son el estado, la acción y la recompensa en el paso de tiempo $t$ y $\gamma$ es un factor de descuento.

En su mayoría son iguales, salvo que en SARSA realizamos una acción real y en Q Learning realizamos la acción con mayor recompensa.

¿Existe algún escenario teórico o práctico en el que se deba preferir uno sobre el otro? Veo que tomar el máximo en el Aprendizaje Q puede ser costoso y más aún en espacios de acción continua. Pero, ¿hay algo más?

Preguntado el 4 de Febrero, 2018 por arun483

Answer 1

0 Respuestas

Cuándo elegir SARSA frente a Q Learning

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Cuándo elegir SARSA frente a Q Learning

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: