2 votos

¿Estas dos ecuaciones de Bellman expresan la misma idea?

Estoy tratando de entender la ecuación de Bellman y he encontrado las dos definiciones siguientes. La primera está tomada de cs229 Stanford - enlace a las fuentes está disponible a continuación.

La segunda ecuación está sacada de apuntes de clase propios y me parecen más difíciles de entender.

  1. $V_\pi (s) = R(s) + \lambda \sum\limits_{s'S } P_{s\pi(s)}(s')V_\pi (s')$

  2. $V \pi (s) =\sum\limits_a \pi(a|s)\sum\limits_{s_{t+1},r}p(s_{t+1}, r |s, a) [r + \lambda V_\pi(s_{t+1})]$

Me gustaría saberlo:

  1. ¿Estas ecuaciones describen realmente lo mismo de la misma manera? ¿Son equivalentes?
  2. En la 2ª ecuación: ¿Por qué tenemos el término $\sum\limits_a p(a|s)$ ? ¿Para qué sirve?
  3. En la 2ª ecuación: ¿Por qué sumamos también sobre todos $r$ en este $\sum\limits_{s_{t+1},r}\dots$ ?

Enlaces que me han resultado útiles:

http://cs229.stanford.edu/notes/cs229-notes12.pdf

¿Por qué la política óptima en un Proceso de Decisión de Markov (MDP) es independiente del estado inicial?

¿Son estas tres formas diferentes de expresar la función de valor óptimo $V^*$ ¿Igual? (aprendizaje por refuerzo)

3voto

Sus dos ecuaciones describen la misma relación entre el valor del estado actual y el valor del estado siguiente, y son aproximadamente equivalentes, pero la segunda es más general. Esto se debe a que la primera ecuación utiliza $R(s)$ para la recompensa inmediata esperada, que supone que la recompensa esperada sólo depende del estado actual, es decir, es independiente de la acción realizada. También en la primera ecuación, una función política determinista $\pi(s)$ se supone que la acción elegida $a$ .

En la segunda ecuación, el término $\sum\limits_a \pi(a|s)$ es una suma ponderada sobre la política para la segunda suma, que se "anida" dentro de la primera suma y se evalúa por acción. Supone una política estocástica en la que $\pi(a|s)$ devuelve la probabilidad de seleccionar la acción $a$ en el estado $s$ . Una política estocástica es otra generalización, que hace que la segunda ecuación sea aplicable a una gama más amplia de MDP.

También en la segunda ecuación, se utiliza la suma sobre todos los valores (discretos) de recompensa y del siguiente estado en lugar de requerir un esperado función de recompensa. Esta es una elección libre, no hace que la ecuación sea más general, pero puede ayudar a intuir lo que hace la ecuación. En particular, el lado derecho de la ecuación de Bellman $V_{\pi}(s)$ es una expectativa, y en el lado izquierdo sólo hay un expectativa de $V_{\pi}(s_{t+1})$ - todo lo demás se ha resuelto en valores y probabilidades individuales.

Si en lugar de ello se utilizara una función de recompensa esperada en las segundas ecuaciones, podría tener el siguiente aspecto $R(s,a,s_{t+1})$ - para que dependa de todas las variables definidas por parámetros y que contengan sumas. Un segundo término equivalente sería entonces $\sum\limits_{s_{t+1}} P_{sa}(s_{t+1}) ( R(s,a,s_{t+1}) + \lambda V(s_{t+1}))$ donde $P_{sa}(s_{t+1})$ es la probabilidad de transición $s \rightarrow s_{t+1}$ acción determinada $a$ .

Si lee más literatura sobre el aprendizaje por refuerzo, encontrará muchas variaciones menores similares en terminología y notación. Resulta útil familiarizarse con las derivaciones de las ecuaciones de Bellman a partir de los primeros principios, para detectar rápidamente las variantes utilizadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X