Problema General
Yo soy de averiguar $v_\pi$ de una cierta Markov de estado.
La Información Dada
Un conjunto de acciones, $a$ contiene ${up, down, left, right}$
$v_\pi(12), v_\pi(13), v_\pi(14)$ (Me da valores de estos)
$r(...) = -1$ (todas las devoluciones son -1, independientemente de la transición)
$p(...) = 1$ (a cada acción se asigna a sólo un estado resultante)
$\pi(a|s) = 1/4$ (la probabilidad de la transición a cualquier estado es 1/4)
$\gamma = 1$ (sin el descuento se aplica)
Problema
Encontrar $v_\pi(15)$, dado que la transición a los estados $12, 13, 14, 15$ $15$ es equiprobables.
Pertinentes Ecuaciones
La ecuación de Bellman para $v_\pi$
$v_\pi(s)=\sum_a \pi(a|s)\sum_{s'} p(s'|s,a)[r(s,a,s')+\gamma v_\pi(s')]$
Una versión simplificada, dado el contexto de esta pregunta, es:
$v_\pi(s)=\sum_a \sum_{s'}(-1 + v_\pi(s'))$
Mi Enfoque
Puedo resolver este problema fácilmente donde sólo hay transiciones a estados de $12, 13, 14$, pero estoy teniendo dificultades para comprender este problema de forma recursiva, porque al final de la ecuación de Bellman, cuando se considera la transición a la $15$, $v_\pi(s')$ es $v_\pi(15)$.
Por lo tanto, $v_\pi(15)$ depende en $v_\pi(15)$ y me deja muy confundido en cuanto a cómo calcular esta por mano (que no sólo puede ejecutar un número increíble de cálculos hasta que converge). Debo hacerlo de forma iterativa hasta que el valor no parece cambiar demasiado?
¿Alguien tiene alguna sugerencia para mí? Ayuda sería muy apreciada!