He estado estudiando problemas de aprendizaje por refuerzo jerárquico, y aunque muchos artículos proponen algoritmos para aprender una política, todos parecen asumir que conocen de antemano una estructura de grafos que describe la jerarquía de las acciones en el dominio. Por ejemplo, El método MAXQ para el aprendizaje jerárquico por refuerzo de Dietterich describe un gráfico de acciones y subtareas para un dominio simple de Taxi, pero no cómo se descubrió este gráfico. ¿Cómo se aprende la jerarquía de este gráfico, y no sólo la política?
En otras palabras, utilizando el ejemplo del artículo, si un taxi condujera sin rumbo, con poco conocimiento previo del mundo, y sólo con las acciones primitivas de moverse a la izquierda/moverse a la derecha/etc., ¿cómo aprendería acciones de más alto nivel como ir-recoger-pasajero? Si he entendido bien el artículo (y puede que no sea así), propone cómo actualizar la política de estas acciones de alto nivel, pero no cómo se forman para empezar.