Los valores Q en un DQN se descontrolan

Question

Los valores Q en un DQN se descontrolan

Preguntado el 30 de Agosto, 2017: Cuando se hizo la pregunta
2178 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy entrenando un DQN para una tarea en la que un agente debe alcanzar una meta en un espacio 2D, con acciones como arriba, abajo, izquierda y derecha. La recompensa en cada paso de tiempo es un decaimiento exponencial basado en la distancia entre el agente y la meta.

El problema que tengo es que, a veces, los valores q predichos por el DQN son muy altos, mucho, mucho más altos de lo que deberían ser teóricamente. Por ejemplo, la recompensa máxima disponible en cualquier paso de tiempo es de 0,1 (cuando el agente está exactamente en la meta), sin embargo, el DQN está prediciendo q-valores de más de 20. Después de un tiempo, este exceso se apaga. Después de un tiempo, este rebasamiento desaparece, pero causa problemas significativos cuando ocurre.

El siguiente gráfico muestra los valores q medios comparados con el número de episodios:

Una causa común de esto es que el aumento de un valor q hará que los valores q vecinos aumenten (debido a la suavidad de la salida de la red neuronal), y por lo tanto hay un efecto compuesto donde los valores q se salen de control. Sin embargo, estoy utilizando una red objetivo separada de la red q, como se propone en el documento original de DeepMind sobre DQN, que está diseñada para eliminar este problema. Estoy reseteando la red-objetivo a la red-q cada 500 pasos.

¿Cuáles podrían ser las otras causas?

Preguntado el 30 de Agosto, 2017 por jens

Answer 1

2 Respuestas

Answer 2

4voto

user2374357 Puntos 51

Esto sucede. Pruebe a aumentar el número de pasos antes de actualizar la red objetivo, a disminuir el factor de descuento o a utilizar doble DQN.

Respondido el 30 de Agosto, 2017 por user2374357 (51 Puntos )

Answer 3

0voto

Nir Ben Ezri Puntos 13

Puede estar experimentando un problema de gradiente explosivo, especialmente si está utilizando redes neuronales recurrentes para la aproximación. Si ese es el caso, la reducción de la tasa de aprendizaje, el factor de descuento o la reducción de los gradientes, ya sea mediante el recorte de gradiente o el escalado de gradiente, debería ayudar.

Respondido el 18 de Noviembre, 2019 por Nir Ben Ezri (13 Puntos )

Los valores Q en un DQN se descontrolan

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Los valores Q en un DQN se descontrolan

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: