6 votos

Aprendizaje de refuerzo de una política de múltiples actores en espacios grandes

Tengo un tiempo real de dominio donde tengo que asignar una acción a N de actores que implican el movimiento de uno de los objetos a uno de los L lugares. En cada paso de tiempo, me dan una recompensa R, que indica el éxito en general de todos los actores.

Tengo 10 actores, 50 objetos únicos, y 1000 ubicaciones, por lo que para cada uno de los actores me tiene que seleccionar una de 500000 acciones posibles. Además, hay 50 factores ambientales puedo tomar en cuenta, tales como cómo cerrar cada objeto es una pared, o cuán cerca se está de un actor. Esto se traduce en 25000000 posibles acciones por el actor.

Casi todos los algoritmos de aprendizaje por refuerzo, no parecen ser adecuados para este dominio.

En primer lugar, casi todos implican la evaluación de la utilidad esperada de cada acción en un determinado estado. Mi espacio de estado es enorme, por lo que se necesitaría para siempre, para que converjan una política con algo tan primitivo como el Q-aprendizaje, incluso si utiliza la función de aproximación. Incluso si pudiera, tomaría demasiado tiempo para encontrar la mejor acción de un millón de acciones en cada paso de tiempo.

En segundo lugar, la mayoría de los algoritmos asumen una sola recompensa por el actor, mientras que la recompensa que me ha dado podría ser contaminado por los errores de uno o más actores.

¿Cómo debo enfocar este problema? He encontrado ningún código para dominios como este, y los pocos trabajos académicos que he encontrado en multi-actor de refuerzo de algoritmos de aprendizaje no proporcionan suficiente detalle para reproducir el algoritmo propuesto.

3voto

karatchov Puntos 230

Creo que hay dos problemas aquí:

  1. El enorme espacio de estado,
  2. El hecho de que muchos de los agentes involucrados.

Yo no tengo experiencia con (2), pero supongo que si todos los agentes pueden compartir sus conocimientos (por ejemplo, sus observaciones), a continuación, esto no es diferente de tratar a todos de diferentes agentes como agente único, y aprender sth como un "enjambre de la política". Si este no es el caso, usted puede ser que necesite para la búsqueda "distribuido de aprendizaje por refuerzo" o "multi agente de refuerzo de aprendizaje".

Para (1), usted puede ser que necesite para encontrar una representación de la acción/el espacio de estado, que es mucho más compacto. Algunas de las ideas que siguen.

Usted dice que hay 1000 ubicaciones. ¿Tiene sentido tratar de encontrar un bajo dimensiones de la incorporación para ellos? E. g. usted es capaz de encontrar una adecuada medida de distancia entre ellos? Si es así, usted puede utilizar la escala multidimensional de integrar en un continuo, k-dimensional espacio con $k << 1000$.

Otro enfoque sería el uso de la política de gradientes. La idea es que se utilice una parametrización de la política, $$ \pi: \Theta \times S \mapsto Un $$

donde cada una de las $\theta \in \Theta$ es un punto en el espacio de parámetros que define la política. Esta política puede ser optimizado con gradiente basado en métodos.

Un ejemplo podría ser que usted tiene una red neuronal que toma el estado actual como una entrada, y directamente se pone a "mover el objeto a la ubicación de j". Usted no tendrá que enumerar todas las acciones posibles de forma explícita.

Sin embargo, dudo que este método funcionará sin un trabajo serio. Incluso cuando el uso de los PGs, tendrá que reducir su acción/espacio de estado.

0voto

Peter Puntos 6

Puede que desee echar un vistazo en el trabajo de Carlos Guestrin en gráficos de coordinación. Su método permite la búsqueda eficiente de la acción conjunta a nivel global máxima bajo condiciones razonables.

Ver:http://www-2.cs.cmu.edu/Groups/NIPS/NIPS2001/papers/psgz/CN01.ps.gz

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X