2 votos

¿Por qué no se pueden calcular las funciones de valor a partir del estado terminal?

En el libro de Sutton y Barto, se habla de cómo las funciones de valor del estado pueden estimarse de forma iterativa. Primero, inicializamos los valores de todos los estados a valores arbitrarios. Luego, mejoramos nuestras estimaciones aplicando la ecuación de Bellman varias veces.

Mi pregunta es: si se conoce la dinámica de un MDP, ¿por qué no podemos trabajar hacia atrás para encontrar las funciones de valor exactas? En otras palabras, ¿por qué no podemos partir de los estados terminales e ir a los estados iniciales? Como sabemos que el valor de los estados terminales es cero, el valor de los estados que preceden a los estados terminales sólo dependería de la recompensa inmediata, que es conocida.

1voto

mclaughlinj Puntos 1099

Como sabemos que el valor de los estados terminales es cero, el valor de los estados que preceden a los estados terminales sólo dependería de la recompensa inmediata, que es conocida.

No del todo. Sólo porque puedes ir de algún estado $s$ a un estado terminal no significa que debe ir de $s$ a un estado terminal. Por ejemplo, consideremos un juego con dos estados: de $A$ puede pasar al estado terminal $B$ con 10 de recompensa, o puede volver al estado $A$ con 1 recompensa. Así que el estado $A$ precede a un estado terminal, pero no es trivial decidir sobre $V(A)$ . Si el descuento $\gamma$ es 0,95, entonces el valor es 20. Si el descuento es de 0,8, entonces el valor es 10.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X