4 votos

De forma recursiva de la Resolución de una Ecuación de Bellman

Problema General

Yo soy de averiguar $v_\pi$ de una cierta Markov de estado.

La Información Dada

Un conjunto de acciones, $a$ contiene ${up, down, left, right}$

$v_\pi(12), v_\pi(13), v_\pi(14)$ (Me da valores de estos)

$r(...) = -1$ (todas las devoluciones son -1, independientemente de la transición)

$p(...) = 1$ (a cada acción se asigna a sólo un estado resultante)

$\pi(a|s) = 1/4$ (la probabilidad de la transición a cualquier estado es 1/4)

$\gamma = 1$ (sin el descuento se aplica)

Problema

Encontrar $v_\pi(15)$, dado que la transición a los estados $12, 13, 14, 15$ $15$ es equiprobables.

Pertinentes Ecuaciones

La ecuación de Bellman para $v_\pi$

$v_\pi(s)=\sum_a \pi(a|s)\sum_{s'} p(s'|s,a)[r(s,a,s')+\gamma v_\pi(s')]$

Una versión simplificada, dado el contexto de esta pregunta, es:

$v_\pi(s)=\sum_a \sum_{s'}(-1 + v_\pi(s'))$


Mi Enfoque

Puedo resolver este problema fácilmente donde sólo hay transiciones a estados de $12, 13, 14$, pero estoy teniendo dificultades para comprender este problema de forma recursiva, porque al final de la ecuación de Bellman, cuando se considera la transición a la $15$, $v_\pi(s')$ es $v_\pi(15)$.

Por lo tanto, $v_\pi(15)$ depende en $v_\pi(15)$ y me deja muy confundido en cuanto a cómo calcular esta por mano (que no sólo puede ejecutar un número increíble de cálculos hasta que converge). Debo hacerlo de forma iterativa hasta que el valor no parece cambiar demasiado?

¿Alguien tiene alguna sugerencia para mí? Ayuda sería muy apreciada!

1voto

Alex Puntos 11160

Creo que se debe seguir por el camino de Kolmogorov hacia adelante ecuaciones se resuelven para un nacimiento y la muerte de MCs. Si la tasa de crecimiento es $\lambda$ y la extinción es $\mu$, luego $$ 0=p'_{j}(t)=\mu \pi_{j+1} + \lambda \pi_{j-1} - (\lambda+\mu) \pi_{j} $$ por lo tanto $$ \pi_j=\frac{\mu}{\mu+\lambda}\pi_{j+1} + \frac{\lambda}{\mu+\lambda} \pi_{j-1} $$ con la normalización de la condición de $\sum_{k \geq 0} \pi_k =1$. así que usted debe spa hasta llegar $\pi_0=1-\frac{\lambda}{\mu}$, $\pi_j = \big(\frac{\lambda}{\mu} \big)^j (1-\frac{\lambda}{\mu})$, es decir, distribución Geométrica

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X