¿Qué son las políticas blandas en el aprendizaje por refuerzo? ¿Las políticas blandas utilizan la función soft-max como $\pi(s, a)$ en lugar de políticas deterministas?
Respuesta
¿Demasiados anuncios?¿qué son las políticas blandas en el aprendizaje por refuerzo?
Una política "blanda" es aquella que tiene alguna probabilidad, normalmente pequeña pero finita, de seleccionar cualquier acción posible. Contar con una política que tenga alguna probabilidad de seleccionar cualquier acción es importante desde el punto de vista teórico cuando las recompensas y/o las transiciones de estado son estocásticas: nunca se está seguro al 100% de las estimaciones del valor real de una acción. Las políticas blandas son importantes a efectos prácticos para explorar acciones alternativas y pueden ofrecer garantías teóricas de convergencia para los algoritmos de RL.
¿Significa utilizar la función soft-max como π(s,a) en lugar de políticas deterministas?
Esta es una forma de crear una política blanda. Otro enfoque muy común es $\epsilon$ -selección rápida de acciones sobre $Q(s,a)$ donde la acción con el valor estimado más alto se utiliza preferentemente con $p=1-\epsilon$ o con $p=\epsilon$ se elige una acción aleatoria con la misma probabilidad de cualquier acción.
También puede ver el término $\epsilon$ -política suave, que es una política en la que cada acción tiene al menos $p=\frac{\epsilon}{|\mathcal{A}|}$ posibilidad de ser seleccionado. En $\epsilon$ -La política de $\epsilon$ -soft policy, pero una función softmax no lo será en general (dependiendo de qué características esté utilizando como entrada para el softmax).