En el nuevo libro de RL de Sutton, en el capítulo 3, hay un ejercicio
Ejercicio 3.6 Suponga que trata el equilibrio de postes como una tarea episódica pero que también utiliza el descuento, con todas las recompensas a cero excepto 1 en caso de fallo. ¿Cuál sería entonces el rendimiento en cada momento? ¿En qué se diferencia este rendimiento del de la formulación descontada y continua de esta tarea?
Mi respuesta es que si es episódico con descuento, el rendimiento en cada paso temporal es $$-\gamma^{K_1} - \gamma^{K_2} - \cdots - \gamma^{K_n},$$
donde $K_i$ es el número de pasos de tiempo totales hasta que falla en el episodio $i$ .
Y para tareas continuas con descuento, el rendimiento en cada paso temporal es $-\gamma^K$ donde $K$ es el número de pasos de tiempo hasta que falla.
No estoy seguro de si mi respuesta es correcta o no. ¿Podría ayudarme?