9 votos

Aprendizaje de la estructura de una tarea de refuerzo jerárquica

He estado estudiando problemas de aprendizaje por refuerzo jerárquico, y aunque muchos artículos proponen algoritmos para aprender una política, todos parecen asumir que conocen de antemano una estructura de grafos que describe la jerarquía de las acciones en el dominio. Por ejemplo, El método MAXQ para el aprendizaje jerárquico por refuerzo de Dietterich describe un gráfico de acciones y subtareas para un dominio simple de Taxi, pero no cómo se descubrió este gráfico. ¿Cómo se aprende la jerarquía de este gráfico, y no sólo la política?

En otras palabras, utilizando el ejemplo del artículo, si un taxi condujera sin rumbo, con poco conocimiento previo del mundo, y sólo con las acciones primitivas de moverse a la izquierda/moverse a la derecha/etc., ¿cómo aprendería acciones de más alto nivel como ir-recoger-pasajero? Si he entendido bien el artículo (y puede que no sea así), propone cómo actualizar la política de estas acciones de alto nivel, pero no cómo se forman para empezar.

8voto

JamesSugrue Puntos 8426

Según esto papel

En el estado actual de la técnica, el diseñador de un sistema de RL suele utiliza el conocimiento previo sobre la tarea para añadir un conjunto específico de opciones al conjunto de acciones primitivas disponibles para el agente.

Véase también la sección 6.2 Jerarquías de tareas de aprendizaje en el mismo documento.

La primera idea que se me ocurre es que si no conoces las jerarquías de las tareas, deberías empezar con un aprendizaje por refuerzo no jerárquico y tratar de descubrir la estructura después o mientras aprendes, es decir, estás tratando de generalizar tu modelo. Para mí esta tarea se parece a la técnica de fusión de modelos bayesianos para HMM (por ejemplo, ver esto tesis )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X