Tengo un tiempo real de dominio donde tengo que asignar una acción a N de actores que implican el movimiento de uno de los objetos a uno de los L lugares. En cada paso de tiempo, me dan una recompensa R, que indica el éxito en general de todos los actores.
Tengo 10 actores, 50 objetos únicos, y 1000 ubicaciones, por lo que para cada uno de los actores me tiene que seleccionar una de 500000 acciones posibles. Además, hay 50 factores ambientales puedo tomar en cuenta, tales como cómo cerrar cada objeto es una pared, o cuán cerca se está de un actor. Esto se traduce en 25000000 posibles acciones por el actor.
Casi todos los algoritmos de aprendizaje por refuerzo, no parecen ser adecuados para este dominio.
En primer lugar, casi todos implican la evaluación de la utilidad esperada de cada acción en un determinado estado. Mi espacio de estado es enorme, por lo que se necesitaría para siempre, para que converjan una política con algo tan primitivo como el Q-aprendizaje, incluso si utiliza la función de aproximación. Incluso si pudiera, tomaría demasiado tiempo para encontrar la mejor acción de un millón de acciones en cada paso de tiempo.
En segundo lugar, la mayoría de los algoritmos asumen una sola recompensa por el actor, mientras que la recompensa que me ha dado podría ser contaminado por los errores de uno o más actores.
¿Cómo debo enfocar este problema? He encontrado ningún código para dominios como este, y los pocos trabajos académicos que he encontrado en multi-actor de refuerzo de algoritmos de aprendizaje no proporcionan suficiente detalle para reproducir el algoritmo propuesto.