Aprendizaje por refuerzo en un entorno no estacionario

Question

Aprendizaje por refuerzo en un entorno no estacionario

Preguntado el 18 de Octubre, 2017: Cuando se hizo la pregunta
5142 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

P1: ¿Existen métodos comunes o aceptados para tratar el entorno no estacionario en el aprendizaje por refuerzo en general?

P2: En mi gridworld, tengo la función de recompensa que cambia cuando se visita un estado. En cada episodio las recompensas vuelven al estado inicial. Todo lo que quiero que aprenda mi agente es "No vuelvas a menos que realmente lo necesites", sin embargo esto hace que el entorno no sea estacionario. ¿Puede/debe incorporarse esta regla tan simple en el modelo MDP, y cómo? ¿Es el Q-learning la mejor solución para tratar este problema? ¿Alguna sugerencia o ejemplos disponibles?

P3: He estado estudiando el Q-learning con la repetición de experiencias como solución para tratar con entornos no estacionarios, ya que descorrelaciona las actualizaciones sucesivas. ¿Es este el uso correcto del método o se trata más bien de hacer que el aprendizaje sea más eficiente en cuanto a los datos? Y sólo he visto que se utiliza con la aproximación de valores. No estoy seguro de si es una exageración utilizarlo para un espacio de estado discreto simple, como gridworld, o hay una razón diferente para esto.

Por favor, siéntase libre de responder o comentar aunque no pueda abordar todas las preguntas.

Preguntado el 18 de Octubre, 2017 por koorosh esteki

Answer 1

2 Respuestas

Answer 2

12voto

Scott MacDougall Puntos 1

P1: ¿Existen métodos comunes o aceptados para tratar el entorno no estacionario en el aprendizaje por refuerzo en general?

La mayoría de los agentes básicos de RL son en línea, y el aprendizaje en línea normalmente puede lidiar con problemas no estacionarios. Además, las reglas de actualización de los estimadores del valor del estado y del valor de la acción en los problemas de control suelen escribirse para objetivos no estacionarios, porque los objetivos ya cambiar a medida que la política mejora. No se trata de nada complicado, simplemente de utilizar una tasa de aprendizaje $\alpha$ en las actualizaciones al estimar los valores, lo que supone una media geométrica móvil en lugar de promediar toda la historia de forma no ponderada.

Sin embargo, En este caso, se aborda la no estacionariedad a largo plazo, como el cambio del problema entre episodios, o en una escala de tiempo aún más larga. Su descripción parece más bien que desea cambiar la estructura de la recompensa basándose en las acciones que el agente ha realizado, en una escala de tiempo corta. Esa respuesta dinámica a las acciones es mejor enmarcarla como un MDP diferente y más complejo, no como "no estacionariedad" dentro de un MDP más simple.

Un agente no puede aprender los cambios del entorno que aún no ha muestreado, por lo que el cambio de la estructura de recompensa no impedirá que el agente vuelva a los estados visitados anteriormente. A menos que se utilice algo como una RNN en el agente, éste no tendrá una "memoria" de lo que ha sucedido antes en el episodio, aparte de lo que esté representado en el estado actual (podría decirse que el uso de una RNN hace que la capa oculta de la RNN forme parte del estado). A través de múltiples episodios, si se utiliza un agente de aprendizaje Q tabular, entonces el agente simplemente aprenderá que ciertos estados tienen un valor bajo, no será capaz de aprender que la segunda o tercera visita al estado causa ese efecto, porque no tiene manera de representar ese conocimiento. No será capaz de ajustarse al cambio lo suficientemente rápido como para aprender en línea y a mitad de episodio.

P2: En mi gridworld, tengo la función de recompensa que cambia cuando se visita un estado. Todo lo que quiero que mi agente aprenda es "No vuelvas a menos que realmente lo necesites", sin embargo esto hace que el entorno no sea estacionario.

Si eso es todo lo que necesitas que aprenda el agente, tal vez se pueda fomentar con una estructura de recompensas adecuada. Antes de poder hacerlo, tienes que entender tú mismo lo que implica "necesitar realmente", y lo ajustado que tiene que ser lógicamente. Sin embargo, puede que no haya ningún problema en asignar alguna penalización por visitar cualquier lugar que el agente ya haya visitado o haya visitado recientemente.

¿Puede/debe incorporarse esta regla tan sencilla al modelo MDP, y cómo?

Sí, debe añadir la información sobre los lugares visitados en el estado. Esto hará que su modelo de estado sea inmediatamente más complejo que un simple mundo cuadriculado, aumentando la dimensionalidad del problema, pero es inevitable. La mayoría de los problemas del mundo real superan rápidamente los ejemplos de juguete que se proporcionan para enseñar los conceptos de RL.

Una alternativa es enmarcar el problema como un _Proceso de decisión de Markov parcialmente observable_ (POMDP) . En ese caso, el estado "verdadero" seguiría incluyendo toda la historia necesaria para calcular las recompensas (y como se trata de un problema de juguete en un ordenador, todavía habría que representarlo de alguna manera), pero el agente puede intentar aprender a partir de un conocimiento restringido del estado, sólo lo que se le permita observar. En general, este es un enfoque mucho más difícil que expandir la representación del estado, y no lo recomendaría aquí. Sin embargo, si la idea te parece interesante, podrías utilizar tu problema para explorar los POMDP. Aquí hay un documento reciente (del equipo Deep Mind de Google, 2015) que analiza dos algoritmos RL combinados con RNNs para resolver POMDPs.

P3: He estado estudiando el Q-learning con repetición de experiencias como solución para tratar con entornos no estacionarios, ya que descorrelaciona las actualizaciones sucesivas. ¿Es este el uso correcto del método o se trata más bien de hacer que el aprendizaje sea más eficiente desde el punto de vista de los datos?

La repetición de la experiencia no ayudará con los entornos no estacionarios. De hecho, podría empeorar el rendimiento en ellos. Sin embargo, como ya se ha dicho, tu problema no tiene que ver con un entorno no estacionario, sino con el manejo de dinámicas de estado más complejas.

Lo que puede es buscar la aproximación de funciones, si el número de estados aumenta hasta un número suficientemente grande. Por ejemplo, si se quiere manejar cualquier y tener una regla compleja de modificación de la recompensa que rastrea cada ubicación visitada, entonces su estado podría cambiar de un solo número de ubicación a un mapa que muestra las ubicaciones visitadas. Así, por ejemplo, podría pasar de $64$ estados para un $8 \times 8$ mundo de la red a un $2^{64}$ mapa del estado que muestra las plazas visitadas. Esto es demasiado alto para seguirlo en una tabla de valores, por lo que normalmente se utilizará una red neuronal (o una red neuronal convolucional) para estimar los valores de estado en su lugar.

Con un estimador de funciones, la repetición de la experiencia es muy útil, ya que sin ella es probable que el proceso de aprendizaje sea inestable. El reciente enfoque DQN para jugar a los juegos de Atari utiliza la repetición de la experiencia por esta razón.

Respondido el 19 de Octubre, 2017 por Scott MacDougall (1 Puntos )

0 votos

Si el entorno no es estacionario, ¿cómo se puede tratar el hecho de que, en el ejemplo del mundo de la red, estar en el estado en el momento t=1 no es lo mismo que estar en ese estado en t=2? Si los tratas como estados separados, seguramente la dimensionalidad de tu espacio de estados se disparará.

Comentado el 19 de Octubre, 2017 por Sergio

0 votos

@tryingtolearn: Todo el sentido de un estado de Markov es que captura todos los detalles importantes de cómo progresará el MDP a partir de ese punto. Típicamente, estar en un estado en t=1 es no diferente de estar en el mismo estado en t=2, en términos de recompensa futura esperada y transiciones de estado. Si terminas con reglas que se basan en el valor de t, entonces pones t en el estado. Esto podría ocurrir si puedes obtener la recompensa en cualquier paso de tiempo, pero el número de pasos de tiempo es limitado - el episodio siempre termina en t=10, por ejemplo. En ese caso, conocer el tiempo restante podría ser importante

Comentado el 19 de Octubre, 2017 por Scott MacDougall

0 votos

@NeilSlater ¿puede ampliar las ideas de POMDP y RNN en su respuesta? Parecen interesantes. Y si es posible, da las fuentes relevantes porque a veces es difícil navegar por la literatura. Realmente no me gusta la idea de mantener la secuencia de estados visitados, aunque es lo único que se me ha ocurrido hasta ahora también, así que estoy buscando otras opciones. El modelo se complica demasiado de esa manera, dado que necesito introducir una regla muy simple. No estoy seguro de si me estoy perdiendo algo muy obvio o simplemente no estoy utilizando el modelo y la formulación correctos.

Comentado el 20 de Octubre, 2017 por koorosh esteki

Mostrar 3 comentarios más

Answer 3

0voto

Danatela Puntos 259

Q1: El aprendizaje Q es un algoritmo de aprendizaje de refuerzo en línea que funciona bien con el entorno estacionario. También puede utilizarse con un modelo no estacionario con la condición de que el modelo (función de recompensa y probabilidades de transición) no cambie rápidamente.

Respondido el 17 de Abril, 2020 por Danatela (259 Puntos )

Aprendizaje por refuerzo en un entorno no estacionario

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Aprendizaje por refuerzo en un entorno no estacionario

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: