¿Por qué no se pueden calcular las funciones de valor a partir del estado terminal?

Question

¿Por qué no se pueden calcular las funciones de valor a partir del estado terminal?

Preguntado el 26 de Febrero, 2021: Cuando se hizo la pregunta
79 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En el libro de Sutton y Barto, se habla de cómo las funciones de valor del estado pueden estimarse de forma iterativa. Primero, inicializamos los valores de todos los estados a valores arbitrarios. Luego, mejoramos nuestras estimaciones aplicando la ecuación de Bellman varias veces.

Mi pregunta es: si se conoce la dinámica de un MDP, ¿por qué no podemos trabajar hacia atrás para encontrar las funciones de valor exactas? En otras palabras, ¿por qué no podemos partir de los estados terminales e ir a los estados iniciales? Como sabemos que el valor de los estados terminales es cero, el valor de los estados que preceden a los estados terminales sólo dependería de la recompensa inmediata, que es conocida.

Preguntado el 26 de Febrero, 2021 por peterlozano

Answer 1

1 Respuestas

Answer 2

1voto

mclaughlinj Puntos 1099

Como sabemos que el valor de los estados terminales es cero, el valor de los estados que preceden a los estados terminales sólo dependería de la recompensa inmediata, que es conocida.

No del todo. Sólo porque puedes ir de algún estado $s$ a un estado terminal no significa que debe ir de $s$ a un estado terminal. Por ejemplo, consideremos un juego con dos estados: de $A$ puede pasar al estado terminal $B$ con 10 de recompensa, o puede volver al estado $A$ con 1 recompensa. Así que el estado $A$ precede a un estado terminal, pero no es trivial decidir sobre $V(A)$ . Si el descuento $\gamma$ es 0,95, entonces el valor es 20. Si el descuento es de 0,8, entonces el valor es 10.

Respondido el 27 de Febrero, 2021 por mclaughlinj (1099 Puntos )

¿Por qué no se pueden calcular las funciones de valor a partir del estado terminal?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué no se pueden calcular las funciones de valor a partir del estado terminal?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: