8 votos

¿Qué son las políticas blandas en el aprendizaje por refuerzo?

¿Qué son las políticas blandas en el aprendizaje por refuerzo? ¿Las políticas blandas utilizan la función soft-max como $\pi(s, a)$ en lugar de políticas deterministas?

9voto

Scott MacDougall Puntos 1

¿qué son las políticas blandas en el aprendizaje por refuerzo?

Una política "blanda" es aquella que tiene alguna probabilidad, normalmente pequeña pero finita, de seleccionar cualquier acción posible. Contar con una política que tenga alguna probabilidad de seleccionar cualquier acción es importante desde el punto de vista teórico cuando las recompensas y/o las transiciones de estado son estocásticas: nunca se está seguro al 100% de las estimaciones del valor real de una acción. Las políticas blandas son importantes a efectos prácticos para explorar acciones alternativas y pueden ofrecer garantías teóricas de convergencia para los algoritmos de RL.

¿Significa utilizar la función soft-max como π(s,a) en lugar de políticas deterministas?

Esta es una forma de crear una política blanda. Otro enfoque muy común es $\epsilon$ -selección rápida de acciones sobre $Q(s,a)$ donde la acción con el valor estimado más alto se utiliza preferentemente con $p=1-\epsilon$ o con $p=\epsilon$ se elige una acción aleatoria con la misma probabilidad de cualquier acción.

También puede ver el término $\epsilon$ -política suave, que es una política en la que cada acción tiene al menos $p=\frac{\epsilon}{|\mathcal{A}|}$ posibilidad de ser seleccionado. En $\epsilon$ -La política de $\epsilon$ -soft policy, pero una función softmax no lo será en general (dependiendo de qué características esté utilizando como entrada para el softmax).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X