TL;DR.
El hecho de que la tasa de descuento esté limitada a ser menor que 1 es un truco matemático para hacer que una suma infinita sea finita. Esto ayuda a demostrar la convergencia de ciertos algoritmos.
En la práctica, el factor de descuento podría utilizarse para modelar el hecho de que el decisor no está seguro de si en el siguiente instante de decisión el mundo (por ejemplo, entorno / juego / proceso ) va a terminar.
Por ejemplo:
Si el decisor es un robot, el factor de descuento podría ser la probabilidad de que el robot se apague en el siguiente instante de tiempo (el mundo se acaba en la terminología anterior). Esta es la razón por la que el robot es cortoplacista y no optimiza la suma de la recompensa, sino la con descuento suma de recompensas.
Factor de descuento inferior a 1 (En detalle)
Para responder con mayor precisión a por qué la tasa de descuento tiene que ser menor que uno, primero introduciré los procesos de decisión de Markov (MDP).
Las técnicas de aprendizaje por refuerzo pueden utilizarse para resolver los MDP. Un MDP proporciona un marco matemático para modelar situaciones de toma de decisiones en las que los resultados son en parte aleatorios y en parte están bajo el control del decisor. Un MDP se define mediante un espacio de estados $\mathcal{S}$ un espacio de acción $\mathcal{A}$ una función de probabilidades de transición entre estados (condicionada a la acción tomada por el decisor), y una función de recompensa.
En su configuración básica, el que toma la decisión realiza una acción y obtiene una recompensa del entorno, y el entorno cambia su estado. A continuación, el decisor percibe el estado del entorno, realiza una acción, obtiene una recompensa, y así sucesivamente. Las transiciones de estado son probabilísticas y dependen únicamente del estado real y de la acción realizada por el decisor. La recompensa obtenida por el decisor depende de la acción realizada y del estado original y del nuevo estado del entorno.
Una recompensa $R_{a_i}(s_j,s_k)$ se obtiene al actuar $a_i$ en el estado $s_j$ y el entorno/sistema cambia al estado $s_k$ después de que el responsable de la toma de decisiones actúe $a_i$ . El responsable de la toma de decisiones sigue una política, $\pi$ $\pi(\cdot):\mathcal{S}\rightarrow\mathcal{A}$ que para cada estado $s_j \in \mathcal{S}$ realiza una acción $a_i \in \mathcal{A}$ . De modo que la política es lo que indica al responsable de la toma de decisiones qué acciones debe llevar a cabo en cada estado. La política $\pi$ puede ser aleatorio también pero no importa por ahora.
El objetivo es encontrar una política $\pi$ tal que
\begin{equation} \label{eq:1} \max_{\pi:S(n)\rightarrow a_i} \lim_{T\rightarrow \infty } E \left\{ \sum_{n=1}^T \beta^n R_{x_i}(S(n),S(n+1)) \right\} (1), \end{equation} donde $\beta$ es el factor de descuento y $\beta<1$ .
Nótese que el problema de optimización anterior, tiene un horizonte temporal infinito ( $T\rightarrow \infty $ ), y el objetivo es maximizar la suma $discounted$ recompensa (la recompensa $R$ se multiplica por $\beta^n$ ). Esto se suele llamar un problema MDP con un horizonte infinito criterios de recompensa descontados .
El problema se llama descontado porque $\beta<1$ . Si no fuera un problema con descuento $\beta=1$ la suma no convergería. Todas las políticas que han obtenido en promedio una recompensa positiva en cada instante de tiempo sumarían hasta el infinito. El sería un criterios de recompensa de suma de horizonte infinito y no es un buen criterio de optimización.
Aquí tienes un ejemplo de juguete para que veas lo que quiero decir:
Supongamos que sólo hay dos acciones posibles $a={0,1}$ y que la función de recompensa $R$ es igual a $1$ si $a=1$ y $0$ si $a=0$ (la recompensa no depende del estado).
Está claro que la política que más recompensa obtiene es la de tomar siempre medidas $a=1$ y nunca la acción $a=0$ . Llamaré a esta política $\pi^*$ . Voy a comparar $\pi^*$ a otra política $\pi'$ que actúa $a=1$ con una pequeña probabilidad $\alpha << 1$ y la acción $a=0$ de lo contrario.
En el criterio de recompensa descontada de horizonte infinito la ecuación (1) se convierte en $\frac{1}{1-\beta}$ (la suma de una serie geométrica) para la política $\pi^*$ mientras que para la política $\pi '$ la ecuación (1) se convierte en $\frac{\alpha}{1-\beta}$ . Desde $\frac{1}{1-\beta} > \frac{\alpha}{1-\beta}$ decimos que $\pi^*$ es una política mejor que $\pi '$ . En realidad $\pi^*$ es la política óptima.
En el criterio de recompensa de la suma de horizontes infinitos ( $\beta=1$ ) la ecuación (1) no converge para ninguna de las políticas (suma hasta el infinito). Así, mientras que la política $\pi$ consigue mayores recompensas que $\pi'$ ambas políticas son iguales según este criterio. Esta es una de las razones por las que el criterio de recompensa de suma de horizonte infinito no es útil.
Como he mencionado antes, $\beta<1$ hace el truco de hacer converger la suma en la ecuación (1).
Otros criterios de optimalidad
Hay otros criterios de optimalidad que no imponen esa $\beta<1$ :
El criterio del horizonte finito el objetivo es maximizar la recompensa descontada hasta el horizonte temporal $T$ \begin{equation} \label{eq:2} \max_{\pi:S(n)\rightarrow a_i} E \left\{ \sum_{n=1}^T \beta^n R_{x_i}(S(n),S(n+1)) \right\}, \end{equation}
para $\beta \leq 1$ y $T$ finito.
En el criterio de recompensa media de horizonte infinito el objetivo es \begin{equation} \max_{\pi:S(n)\rightarrow a_i} \lim_{T\rightarrow \infty } E \left\{ \sum_{n=1}^T \frac{1}{T} R_{x_i}(S(n),S(n+1)) \right\}, \end{equation}
Nota final
Dependiendo de los criterios de optimalidad se utilizaría un algoritmo diferente para encontrar la política óptima. Por ejemplo, las políticas óptimas de los problemas de horizonte finito dependerían tanto del estado como del instante de tiempo actual. La mayoría de los algoritmos de aprendizaje por refuerzo (como SARSA o Q-learning) convergen a la política óptima sólo para los criterios de recompensa descontada de horizonte infinito (lo mismo ocurre con los algoritmos de programación dinámica). Para el criterio de recompensa media no hay ningún algoritmo que haya demostrado converger a la política óptima, sin embargo se puede utilizar el R-learning que tiene un buen rendimiento aunque no una buena convergencia teórica.