Comprendiendo Q-learning para acciones continuas

Question

Comprendiendo Q-learning para acciones continuas

Preguntado el 10 de Septiembre, 2018: Cuando se hizo la pregunta
144 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy leyendo el artículo sobre Funciones de Ventaja Normalizadas para el aprendizaje continuo de Q y tengo problemas para entender por qué la función de ventaja toma esta forma particular:

¿Por qué la función de Ventaja, ($A$) es cuadrática en las acciones ($u$)? ¿Cuáles son los propósitos de $P$ y $\mu$? Estoy completamente perdido en cuanto a por qué la función de ventaja toma esta forma y cómo se justifica.

Editar: así que puedo ver que cuando $u=\mu$, $A$ se maximiza, lo cual es útil, pero ¿por qué necesitamos $P$ - después de todo, $\mu$ seguiría maximizando $A$ sin el $P ¿verdad?

Preguntado el 10 de Septiembre, 2018 por Mellow

Answer 1

1 Respuestas

Answer 2

3voto

mclaughlinj Puntos 1099

Agrega en la suposición de que la ventaja / función Q es cuadrática, aunque esto puede no ser cierto en todos los casos, tiene la ventaja de hacer que el aprendizaje sea mucho más fácil, especialmente en espacios de alta dimensión. (Para ser claro, no es una afirmación matemática que $A$ sea cuadrática, sino que los autores modelan $A$ usando una red neuronal cuyas salidas están restringidas a esta forma cuadrática).

Los autores elaboran sobre las implicaciones de restringir la función de ventaja a ser cuadrática en la sección 8.3.

Por lo tanto, podemos interpretar intuitivamente a NAF como haciendo inferencia variacional para ajustar una gaussiana a una distribución, y tiene un comportamiento de búsqueda de modo. Empíricamente, dicho comportamiento permite a NAF aprender controladores más suaves y precisos, como se ilustra de manera más efectiva en experimentos de inserción de pegamento y alcanzador de tres articulaciones, y mejoras sustanciales en términos de velocidad de convergencia en muchos otros dominios representativos explorados en el documento principal.

Respondido el 10 de Septiembre, 2018 por mclaughlinj (1099 Puntos )

0 votos

¿Por qué necesitamos la etiqueta P?

Comentado el 10 de Septiembre, 2018 por Mellow

1 votos

@Mellow la forma general de una función cuadrática es $f(x) = x^TAx$ -- necesitas $A$ para poder expresar el espacio completo de funciones cuadráticas.

Comentado el 10 de Septiembre, 2018 por mclaughlinj

0 votos

Gracias. He seleccionado tu respuesta como la respuesta correcta. Desafortunadamente no puedo +1 tu respuesta ya que no tengo suficientes puntos (<15) para poder hacerlo - reglas de Stack :S

Comentado el 10 de Septiembre, 2018 por Mellow

Comprendiendo Q-learning para acciones continuas

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Comprendiendo Q-learning para acciones continuas

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: