Actualmente está aprendiendo sobre el teorema del gradiente de la política para el aprendizaje por refuerzo . La derivación final para el gradiente de la política se simplifica a $$E_{\pi}[Q^{\pi}(s,a)\nabla_{\theta}ln\,\pi_{\theta}(a|s)]$$ donde $E_{\pi}$ equivale a $E_{s \sim d^{\pi},a \sim \pi_{\theta}}$ . Muestreo $a \sim \pi$ es sencillo. Mi pregunta es cómo muestreamos de la distribución del estado estacionario $s \sim d^{\pi}$ para la política actual $\pi_{\theta}$ ?
Respuesta
¿Demasiados anuncios?Si sólo hace un "roll out" (terminología técnica que significa que sólo juega el juego / ejecuta el MDP hacia adelante) de acuerdo con su política $\pi_\theta$ durante el tiempo suficiente, estarás muestreando estados de $d^\pi$ . Hay algunas condiciones técnicas leves, pero básicamente siempre convergerá a la distribución estacionaria después de suficiente tiempo.
Sin embargo, normalmente la gente juega a juegos de longitud de episodio finita, y en ese caso hay una política de gradientes de horizonte finito que es casi exactamente lo mismo pero en lugar de muestrear de $d^\pi$ La gente se limita a hacer un muestreo sobre la distribución de los estados de las tiradas de longitud finita. Y se puede muestrear a partir de esa distribución de la misma manera: basta con jugar el juego un montón de veces.