1 votos

Recompensa total descontada frente a la recompensa total media

En un Proceso de Decisión de Markov (MDP), la recompensa total descontada se define como $\sum_{t=0}^\infty \gamma^tr_t$ donde $r_t$ es la recompensa percibida en el momento $t$ y $\gamma$ es un número real $\in ]0, 1[$ . La recompensa total media se define como $\lim_{t\rightarrow \infty}\frac{\sum_{i=0}^tr_i}{t}$ .

Mi pregunta es: ¿una política $\pi$ que maximiza la recompensa total descontada también maximiza la recompensa total media y viceversa? O existe una política $\pi$ que maximiza la primera y $\pi'$ que maximiza el segundo donde $\pi \neq \pi'$ ?

1voto

thedeeno Puntos 12553

Consideremos primero el caso extremo en el que el valor futuro es descontado fuertemente, lo que significa que $\gamma$ es muy pequeño, cerca de $0$ . En este caso, la recompensa total descontada se aproxima a la identidad con $r_0$ y la política maximizadora en ese caso se acercará a la política de maximización $r_0$ . Esto tiene sentido, ya que si no valoras las recompensas futuras, entonces debes tratar de maximizar la recompensa presente. La recompensa total media, en cambio, puede depender sensiblemente de las recompensas futuras recompensas futuras $r_n$ Por lo tanto, no debemos esperar que ambas políticas coincidan en general.

Esta forma de pensar nos lleva a un contraejemplo en el que el políticas difieren: en un proceso de decisión de Markov donde hay recompensa comparativamente grande pero diferida, es decir, una es decir, una elección entre una pequeña recompensa presente seguida de una gran recompensa futura y una recompensa presente de tamaño medio seguida de una pequeña recompensa futura, las dos políticas llegarán a diferentes decisiones maximizadoras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X