Estoy leyendo el artículo sobre Funciones de Ventaja Normalizadas para el aprendizaje continuo de Q y tengo problemas para entender por qué la función de ventaja toma esta forma particular:
¿Por qué la función de Ventaja, ($A$) es cuadrática en las acciones ($u$)? ¿Cuáles son los propósitos de $P$ y $\mu$? Estoy completamente perdido en cuanto a por qué la función de ventaja toma esta forma y cómo se justifica.
Editar: así que puedo ver que cuando $u=\mu$, $A$ se maximiza, lo cual es útil, pero ¿por qué necesitamos $P$ - después de todo, $\mu$ seguiría maximizando $A$ sin el $P ¿verdad?