4 votos

Comprendiendo Q-learning para acciones continuas

Estoy leyendo el artículo sobre Funciones de Ventaja Normalizadas para el aprendizaje continuo de Q y tengo problemas para entender por qué la función de ventaja toma esta forma particular:

insertar descripción de la imagen aquí

¿Por qué la función de Ventaja, ($A$) es cuadrática en las acciones ($u$)? ¿Cuáles son los propósitos de $P$ y $\mu$? Estoy completamente perdido en cuanto a por qué la función de ventaja toma esta forma y cómo se justifica.

Editar: así que puedo ver que cuando $u=\mu$, $A$ se maximiza, lo cual es útil, pero ¿por qué necesitamos $P$ - después de todo, $\mu$ seguiría maximizando $A$ sin el $P ¿verdad?

3voto

mclaughlinj Puntos 1099

Agrega en la suposición de que la ventaja / función Q es cuadrática, aunque esto puede no ser cierto en todos los casos, tiene la ventaja de hacer que el aprendizaje sea mucho más fácil, especialmente en espacios de alta dimensión. (Para ser claro, no es una afirmación matemática que $A$ sea cuadrática, sino que los autores modelan $A$ usando una red neuronal cuyas salidas están restringidas a esta forma cuadrática).

Los autores elaboran sobre las implicaciones de restringir la función de ventaja a ser cuadrática en la sección 8.3.

Por lo tanto, podemos interpretar intuitivamente a NAF como haciendo inferencia variacional para ajustar una gaussiana a una distribución, y tiene un comportamiento de búsqueda de modo. Empíricamente, dicho comportamiento permite a NAF aprender controladores más suaves y precisos, como se ilustra de manera más efectiva en experimentos de inserción de pegamento y alcanzador de tres articulaciones, y mejoras sustanciales en términos de velocidad de convergencia en muchos otros dominios representativos explorados en el documento principal.

0 votos

¿Por qué necesitamos la etiqueta P?

1 votos

@Mellow la forma general de una función cuadrática es $f(x) = x^TAx$ -- necesitas $A$ para poder expresar el espacio completo de funciones cuadráticas.

0 votos

Gracias. He seleccionado tu respuesta como la respuesta correcta. Desafortunadamente no puedo +1 tu respuesta ya que no tengo suficientes puntos (<15) para poder hacerlo - reglas de Stack :S

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X