Sus dos ecuaciones describen la misma relación entre el valor del estado actual y el valor del estado siguiente, y son aproximadamente equivalentes, pero la segunda es más general. Esto se debe a que la primera ecuación utiliza $R(s)$ para la recompensa inmediata esperada, que supone que la recompensa esperada sólo depende del estado actual, es decir, es independiente de la acción realizada. También en la primera ecuación, una función política determinista $\pi(s)$ se supone que la acción elegida $a$ .
En la segunda ecuación, el término $\sum\limits_a \pi(a|s)$ es una suma ponderada sobre la política para la segunda suma, que se "anida" dentro de la primera suma y se evalúa por acción. Supone una política estocástica en la que $\pi(a|s)$ devuelve la probabilidad de seleccionar la acción $a$ en el estado $s$ . Una política estocástica es otra generalización, que hace que la segunda ecuación sea aplicable a una gama más amplia de MDP.
También en la segunda ecuación, se utiliza la suma sobre todos los valores (discretos) de recompensa y del siguiente estado en lugar de requerir un esperado función de recompensa. Esta es una elección libre, no hace que la ecuación sea más general, pero puede ayudar a intuir lo que hace la ecuación. En particular, el lado derecho de la ecuación de Bellman $V_{\pi}(s)$ es una expectativa, y en el lado izquierdo sólo hay un expectativa de $V_{\pi}(s_{t+1})$ - todo lo demás se ha resuelto en valores y probabilidades individuales.
Si en lugar de ello se utilizara una función de recompensa esperada en las segundas ecuaciones, podría tener el siguiente aspecto $R(s,a,s_{t+1})$ - para que dependa de todas las variables definidas por parámetros y que contengan sumas. Un segundo término equivalente sería entonces $\sum\limits_{s_{t+1}} P_{sa}(s_{t+1}) ( R(s,a,s_{t+1}) + \lambda V(s_{t+1}))$ donde $P_{sa}(s_{t+1})$ es la probabilidad de transición $s \rightarrow s_{t+1}$ acción determinada $a$ .
Si lee más literatura sobre el aprendizaje por refuerzo, encontrará muchas variaciones menores similares en terminología y notación. Resulta útil familiarizarse con las derivaciones de las ecuaciones de Bellman a partir de los primeros principios, para detectar rápidamente las variantes utilizadas.