4 votos

Aprendizaje por refuerzo, pregunta del nuevo libro de Sutton

En el nuevo libro de RL de Sutton, en el capítulo 3, hay un ejercicio

Ejercicio 3.6 Suponga que trata el equilibrio de postes como una tarea episódica pero que también utiliza el descuento, con todas las recompensas a cero excepto 1 en caso de fallo. ¿Cuál sería entonces el rendimiento en cada momento? ¿En qué se diferencia este rendimiento del de la formulación descontada y continua de esta tarea?

Mi respuesta es que si es episódico con descuento, el rendimiento en cada paso temporal es $$-\gamma^{K_1} - \gamma^{K_2} - \cdots - \gamma^{K_n},$$

donde $K_i$ es el número de pasos de tiempo totales hasta que falla en el episodio $i$ .

Y para tareas continuas con descuento, el rendimiento en cada paso temporal es $-\gamma^K$ donde $K$ es el número de pasos de tiempo hasta que falla.

No estoy seguro de si mi respuesta es correcta o no. ¿Podría ayudarme?

0voto

mj525 Puntos 1

No lo creo, reescribiendo la ec. del libro (3.7) con descuentos, obtendríamos

$$ G_t = R_{t+1} + \gamma \cdot R_{t+2} + \gamma^2 \cdot R_{t+3} + ... + \gamma^{T-1} \cdot R_{T} $$

donde $T$ es el estado terminal y $\gamma$ es el tipo de descuento.

Dado que todas las recompensas son cero ( $R_{t+1}, R_{t+2}, R_{t+3}$ ) excepto -1 en caso de fallo ( $R_T$ ), se puede extraer la rentabilidad esperada en cada momento, que es diferente de lo que propones.

0voto

Jacob Sushenok Puntos 11

En primer lugar, para el caso continuo, la devolución sería algo así como: $$-\sum^{\infty}_{i=1}\gamma^{K_i-1}$$ donde el $K_i$ son el número de pasos hasta el primer $(i=1)$ fracaso, segundo fracaso $(i=2)$ etc. Para ayudar a entender por qué es así, imagina la siguiente secuencia de recompensas:

$$0,0,0,-1,0,-1,0,...$$

que equivale a $$R_{t+1},R_{t+2},R_{t+3},R_{t+4},R_{t+5}, R_{t+6},R_{t+7}...$$

Como tenemos descuentos, se convierte en $$R_{t+1},\gamma R_{t+2},\gamma^2 R_{t+3},\gamma^3 R_{t+4},\gamma^4 R_{t+5},\gamma^5 R_{t+6},\gamma^6 R_{t+7}... \\ = 0,\gamma 0,\gamma^2 0,\gamma^3 (-1),\gamma^4 0,\gamma^5 (-1),\gamma^6 0,...$$

Así que usted puede ver que tenemos $K=4$ pasos de tiempo hasta el primer $-1$ y la recompensa que obtenemos de ello es $\gamma^{K-1} R_{t+4}=\gamma^{4-1}R_{t+4}=\gamma^3R_{t+4}=-\gamma^3$ y hasta la próxima $-1$ tenemos $K=6$ tiempos.

Ahora, para la tarea episódica el retorno se ve así: $$G_t = R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+...+\gamma^{T-t-1}R_T$$ por lo que el retorno es $-\gamma^{T-t-1}$ . Tenga en cuenta también que $G_T=0$ ya que el siguiente estado es terminal $(R_{T+1}=0)$ .

-1voto

amanuel2 Puntos 255

Yo diría esto:

Sabiendo que la recompensa en el momento $T$ es -1, podemos modelizar la rentabilidad esperada hasta que $T-1$ como de costumbre y establecer la recompensa en el último paso temporal del episodio como -1. Así:

$G_{t} = \sum_{k = 1}^{T-1} - \gamma^{k-1} - 1$

-1voto

maligree Puntos 1211

En el descuentos continuados caso, la devolución no es meramente $-\gamma^{k-1}$ sino una suma de términos similares que contabilizan todos los fallos futuros; incluso se menciona en el texto

La rentabilidad en cada momento estaría entonces relacionada con $-\gamma^{K-1}$ donde $K$ es el número de pasos temporales antes del fallo (así como a las épocas de fracasos posteriores) .

En el descuento episódico formulación, el rendimiento en cada momento aumenta a medida que se acerca al punto de fallo (también el final del episodio). En este caso, el rendimiento en cada paso temporal sólo tendría un término $-\gamma^{k-1}$ . $G_T$ también sería cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X