¿Estas dos ecuaciones de Bellman expresan la misma idea?

Question

¿Estas dos ecuaciones de Bellman expresan la misma idea?

Preguntado el 24 de Agosto, 2019: Cuando se hizo la pregunta
265 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de entender la ecuación de Bellman y he encontrado las dos definiciones siguientes. La primera está tomada de cs229 Stanford - enlace a las fuentes está disponible a continuación.

La segunda ecuación está sacada de apuntes de clase propios y me parecen más difíciles de entender.

$V_\pi (s) = R(s) + \lambda \sum\limits_{s'S } P_{s\pi(s)}(s')V_\pi (s')$
$V \pi (s) =\sum\limits_a \pi(a|s)\sum\limits_{s_{t+1},r}p(s_{t+1}, r |s, a) [r + \lambda V_\pi(s_{t+1})]$

Me gustaría saberlo:

¿Estas ecuaciones describen realmente lo mismo de la misma manera? ¿Son equivalentes?
En la 2ª ecuación: ¿Por qué tenemos el término $\sum\limits_a p(a|s)$ ? ¿Para qué sirve?
En la 2ª ecuación: ¿Por qué sumamos también sobre todos $r$ en este $\sum\limits_{s_{t+1},r}\dots$ ?

Enlaces que me han resultado útiles:

http://cs229.stanford.edu/notes/cs229-notes12.pdf

¿Por qué la política óptima en un Proceso de Decisión de Markov (MDP) es independiente del estado inicial?

¿Son estas tres formas diferentes de expresar la función de valor óptimo $V^*$ ¿Igual? (aprendizaje por refuerzo)

Preguntado el 24 de Agosto, 2019 por Sven

Answer 1

1 Respuestas

Answer 2

3voto

Scott MacDougall Puntos 1

Sus dos ecuaciones describen la misma relación entre el valor del estado actual y el valor del estado siguiente, y son aproximadamente equivalentes, pero la segunda es más general. Esto se debe a que la primera ecuación utiliza $R(s)$ para la recompensa inmediata esperada, que supone que la recompensa esperada sólo depende del estado actual, es decir, es independiente de la acción realizada. También en la primera ecuación, una función política determinista $\pi(s)$ se supone que la acción elegida $a$ .

En la segunda ecuación, el término $\sum\limits_a \pi(a|s)$ es una suma ponderada sobre la política para la segunda suma, que se "anida" dentro de la primera suma y se evalúa por acción. Supone una política estocástica en la que $\pi(a|s)$ devuelve la probabilidad de seleccionar la acción $a$ en el estado $s$ . Una política estocástica es otra generalización, que hace que la segunda ecuación sea aplicable a una gama más amplia de MDP.

También en la segunda ecuación, se utiliza la suma sobre todos los valores (discretos) de recompensa y del siguiente estado en lugar de requerir un esperado función de recompensa. Esta es una elección libre, no hace que la ecuación sea más general, pero puede ayudar a intuir lo que hace la ecuación. En particular, el lado derecho de la ecuación de Bellman $V_{\pi}(s)$ es una expectativa, y en el lado izquierdo sólo hay un expectativa de $V_{\pi}(s_{t+1})$ - todo lo demás se ha resuelto en valores y probabilidades individuales.

Si en lugar de ello se utilizara una función de recompensa esperada en las segundas ecuaciones, podría tener el siguiente aspecto $R(s,a,s_{t+1})$ - para que dependa de todas las variables definidas por parámetros y que contengan sumas. Un segundo término equivalente sería entonces $\sum\limits_{s_{t+1}} P_{sa}(s_{t+1}) ( R(s,a,s_{t+1}) + \lambda V(s_{t+1}))$ donde $P_{sa}(s_{t+1})$ es la probabilidad de transición $s \rightarrow s_{t+1}$ acción determinada $a$ .

Si lee más literatura sobre el aprendizaje por refuerzo, encontrará muchas variaciones menores similares en terminología y notación. Resulta útil familiarizarse con las derivaciones de las ecuaciones de Bellman a partir de los primeros principios, para detectar rápidamente las variantes utilizadas.

Respondido el 28 de Agosto, 2019 por Scott MacDougall (1 Puntos )

¿Estas dos ecuaciones de Bellman expresan la misma idea?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Estas dos ecuaciones de Bellman expresan la misma idea?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: