3 votos

Comprensión de la política de gradientes Derivación

Estoy atascado con la comprensión de una expresión bastante simple y agradecería algo de ayuda en esto. La parte más interesante para los algoritmos, es la forma en que podemos llegar aquí.

Utilización de los recursos originales del blog de Andrej Karpathy sobre el Gradiente Político. Todo está claro con las asignaciones de créditos de Monte Carlo y los algoritmos supervisados frente al refuerzo. Tenemos la siguiente expresión, cómo llegamos a este objetivo de optimización y el gradiente para él (imágenes de otros recursos):

enter image description here enter image description here enter image description here

1) Estoy familiarizado con la derivación, creo, pero ¿cuál fue el punto de tomar el registro en este caso? Se llama truco de la relación de semejanza a veces y también se explica aquí (donde todavía no puedo conseguirlo). ¿Qué sentido tiene utilizarlo aquí?

2) ¿Puede alguien mostrar algunos ¿Ejemplos muy sencillos de su uso con números y su funcionamiento? ¿Hay algo más sobre matemáticas que necesite encontrar o esto podría existir en Khan Academy?

Referencias :

1) Aprendizaje profundo por refuerzo: Pong a partir de píxeles

2) Introducción a los gradientes políticos con Cartpole y Doom

3) Derivación de los gradientes políticos y aplicación de REINFORCE

4) Truco de aprendizaje automático del día (5): Truco de la derivada logarítmica 12

ACTUALIZACIÓN

Por favor, considere la respuesta a los dos puntos anteriores. No necesito encontrar el derivado de softmax y una salida complicada. Agradecería alguna nueva explicación (diferente a los artículos anteriores). Y digamos que el espacio de acción que es continúa valor y la probabilidad de tomar la acción es la activación de revestimiento dentro de ejemplo muy simple.

2voto

David Kraemer Puntos 77

El objetivo del truco del logaritmo es poder expresar $\nabla_\theta J(\theta)$ como una expectativa. Calcular (o, más correctamente, estimar) una expectativa es precisamente lo que intentan hacer los métodos de Montecarlo.

Con más detalle, $\pi(\:\cdot\:;\theta)$ es una distribución de probabilidad sobre las acciones disponibles. Es decir, $\pi(\tau;\theta) \geq 0$ para cada $\tau$ y $\sum_{\tau} \pi(\tau;\theta) = 1$ . Si podemos expresar $\nabla_\theta J(\theta)$ en la forma $\sum_{\tau} \pi(\tau;\theta) \cdot f(\tau)$ para alguna función $f$ entonces la expresión $\sum_{\tau} \pi(\tau;\theta) \cdot f(\tau)$ asume la interpretación del valor esperado $E_\pi [f]$ . Ahora, para que este truco funcione, tenemos que lidiar con la realidad de que tomar el gradiente de $J(\theta)$ no produce obviamente tal expresión. En particular, parece que $$ \nabla_\theta J(\theta) = \sum_{\tau} \nabla_\theta \pi(\tau; \theta) R(\tau). $$ Así que empleamos el clásico truco de "multiplicar por 1": $$ \sum_\tau \nabla_\theta \pi(\tau ; \theta) R(\tau) = \sum_{\tau} \pi(\tau; \theta) \cdot \frac{\nabla_\theta \pi(\tau;\theta)}{\pi(\tau;\theta)} R(\tau). $$ Así que queremos escribir $f(\tau) = \frac{\nabla_\theta \pi(\tau ; \theta)}{\pi(\tau ; \theta)} R(\tau)$ . Y si somos muy inteligentes, reconocemos que $\frac{\nabla_\tau \pi(\tau;\theta)}{\pi(\tau;\theta)} = \nabla_\theta \log \pi(\tau;\theta)$ que es más limpio. Por eso el gradiente de la política se expresa como una expectativa con un logaritmo dentro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X