¿Qué son las políticas blandas en el aprendizaje por refuerzo?

Question

¿Qué son las políticas blandas en el aprendizaje por refuerzo?

Preguntado el 24 de Abril, 2018: Cuando se hizo la pregunta
4947 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Qué son las políticas blandas en el aprendizaje por refuerzo? ¿Las políticas blandas utilizan la función soft-max como $\pi(s, a)$ en lugar de políticas deterministas?

Preguntado el 24 de Abril, 2018 por user132651

Answer 1

1 Respuestas

Answer 2

9voto

Scott MacDougall Puntos 1

¿qué son las políticas blandas en el aprendizaje por refuerzo?

Una política "blanda" es aquella que tiene alguna probabilidad, normalmente pequeña pero finita, de seleccionar cualquier acción posible. Contar con una política que tenga alguna probabilidad de seleccionar cualquier acción es importante desde el punto de vista teórico cuando las recompensas y/o las transiciones de estado son estocásticas: nunca se está seguro al 100% de las estimaciones del valor real de una acción. Las políticas blandas son importantes a efectos prácticos para explorar acciones alternativas y pueden ofrecer garantías teóricas de convergencia para los algoritmos de RL.

¿Significa utilizar la función soft-max como π(s,a) en lugar de políticas deterministas?

Esta es una forma de crear una política blanda. Otro enfoque muy común es $\epsilon$ -selección rápida de acciones sobre $Q(s,a)$ donde la acción con el valor estimado más alto se utiliza preferentemente con $p=1-\epsilon$ o con $p=\epsilon$ se elige una acción aleatoria con la misma probabilidad de cualquier acción.

También puede ver el término $\epsilon$ -política suave, que es una política en la que cada acción tiene al menos $p=\frac{\epsilon}{|\mathcal{A}|}$ posibilidad de ser seleccionado. En $\epsilon$ -La política de $\epsilon$ -soft policy, pero una función softmax no lo será en general (dependiendo de qué características esté utilizando como entrada para el softmax).

Respondido el 24 de Abril, 2018 por Scott MacDougall (1 Puntos )

¿Qué son las políticas blandas en el aprendizaje por refuerzo?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué son las políticas blandas en el aprendizaje por refuerzo?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: