En un Proceso de Decisión de Markov (MDP), la recompensa total descontada se define como $\sum_{t=0}^\infty \gamma^tr_t$ donde $r_t$ es la recompensa percibida en el momento $t$ y $\gamma$ es un número real $\in ]0, 1[$ . La recompensa total media se define como $\lim_{t\rightarrow \infty}\frac{\sum_{i=0}^tr_i}{t}$ .
Mi pregunta es: ¿una política $\pi$ que maximiza la recompensa total descontada también maximiza la recompensa total media y viceversa? O existe una política $\pi$ que maximiza la primera y $\pi'$ que maximiza el segundo donde $\pi \neq \pi'$ ?