En el libro de Sutton y Barto, se habla de cómo las funciones de valor del estado pueden estimarse de forma iterativa. Primero, inicializamos los valores de todos los estados a valores arbitrarios. Luego, mejoramos nuestras estimaciones aplicando la ecuación de Bellman varias veces.
Mi pregunta es: si se conoce la dinámica de un MDP, ¿por qué no podemos trabajar hacia atrás para encontrar las funciones de valor exactas? En otras palabras, ¿por qué no podemos partir de los estados terminales e ir a los estados iniciales? Como sabemos que el valor de los estados terminales es cero, el valor de los estados que preceden a los estados terminales sólo dependería de la recompensa inmediata, que es conocida.