Soy un novato en el campo del aprendizaje automático, tengo una comprensión de nivel moderado de regresión lineal / no lineal, máquinas de vectores soporte, redes neuronales y q-learning (para espacio finito discreto y espacio de acción). Hace poco leí un artículo titulado "User Scheduling and Resource Allocation in HetNets With Hybrid Energy Supply: An Actor-Critic Reinforcement Learning Approach" publicado en IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS, VOL. 17, NO. 1.
Aunque el artículo trata sobre el aprendizaje por refuerzo actor-crítico. Sin embargo, lo que no puedo entender es la parte de "gradiente de política". En concreto, si nuestro espacio de acción es continuo y un vector por ejemplo [b1, b2, b3.. bn, c1, c2, c3...cn] cuenta como una acción donde $b1, b2, b3.. bn, c1, c2, c3...cn$ son todas variables continuas, lo mismo ocurre con el espacio de estados. Al igual que en el documento mencionado anteriormente, los autores han considerado la política gaussiana.
$$\pi_{\theta}(s,a)=\dfrac{1}{\sqrt{2 \pi\sigma}}\exp\left(-\dfrac{(a-\mu(s))^2}{2 \sigma^2}\right) \tag{1}$$
Aunque $\mu(s)$ será una cantidad escalar, aún $a$ debe ser un vector, ya que cada acción es un vector ([b1, b2, b3.. bn, c1, c2, c3...cn]). ¿Es (1) una distribución multidimensional de Gauss?
Además, ¿cómo encontrar la distribución de estados necesaria para el gradiente de la política? Si el espacio de estados es continuo, ¿no debería ser la probabilidad de estar en un estado concreto $0$ ? Si no es así, ¿cómo puedo utilizar la política gaussiana para hallar la distribución de estados? ¿Puede alguien explicarme la expresión de la actualización del gradiente de la política, tengo que tomar muestras del espacio continuo de estados y acciones para la actualización? ¿Puede alguien resolverme una sola iteración?
Sé que por mis preguntas se podría pensar que no he intentado encontrar las respuestas por mí misma y que sólo intento descargar mi carga en otra persona. Sin embargo, créanme que he leído muchos tutoriales, muchos documentos, he visto muchas conferencias en línea y tutoriales en youtube, pero todavía estoy confundido. Principalmente porque la mayoría de los tutoriales asumen que el lector ya tiene un conocimiento de cómo encontrar $\delta_{\theta} \pi_{s,a}$ cómo hallar la distribución estatal, etc.