Aprendizaje de la estructura de una tarea de refuerzo jerárquica

Question

Aprendizaje de la estructura de una tarea de refuerzo jerárquica

Preguntado el 27 de Septiembre, 2010: Cuando se hizo la pregunta
227 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

He estado estudiando problemas de aprendizaje por refuerzo jerárquico, y aunque muchos artículos proponen algoritmos para aprender una política, todos parecen asumir que conocen de antemano una estructura de grafos que describe la jerarquía de las acciones en el dominio. Por ejemplo, El método MAXQ para el aprendizaje jerárquico por refuerzo de Dietterich describe un gráfico de acciones y subtareas para un dominio simple de Taxi, pero no cómo se descubrió este gráfico. ¿Cómo se aprende la jerarquía de este gráfico, y no sólo la política?

En otras palabras, utilizando el ejemplo del artículo, si un taxi condujera sin rumbo, con poco conocimiento previo del mundo, y sólo con las acciones primitivas de moverse a la izquierda/moverse a la derecha/etc., ¿cómo aprendería acciones de más alto nivel como ir-recoger-pasajero? Si he entendido bien el artículo (y puede que no sea así), propone cómo actualizar la política de estas acciones de alto nivel, pero no cómo se forman para empezar.

Preguntado el 27 de Septiembre, 2010 por Chris Tybur

Answer 1

1 Respuestas

Answer 2

8voto

JamesSugrue Puntos 8426

Según esto papel

En el estado actual de la técnica, el diseñador de un sistema de RL suele utiliza el conocimiento previo sobre la tarea para añadir un conjunto específico de opciones al conjunto de acciones primitivas disponibles para el agente.

Véase también la sección 6.2 Jerarquías de tareas de aprendizaje en el mismo documento.

La primera idea que se me ocurre es que si no conoces las jerarquías de las tareas, deberías empezar con un aprendizaje por refuerzo no jerárquico y tratar de descubrir la estructura después o mientras aprendes, es decir, estás tratando de generalizar tu modelo. Para mí esta tarea se parece a la técnica de fusión de modelos bayesianos para HMM (por ejemplo, ver esto tesis )

Respondido el 27 de Septiembre, 2010 por JamesSugrue (8426 Puntos )

Aprendizaje de la estructura de una tarea de refuerzo jerárquica

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Aprendizaje de la estructura de una tarea de refuerzo jerárquica

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: