Estoy interesado en Aprendizaje por refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería hacer un curso de Teoría de Juegos (GT) ?
¿Cómo se GT y RL ¿relacionados?
Estoy interesado en Aprendizaje por refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería hacer un curso de Teoría de Juegos (GT) ?
¿Cómo se GT y RL ¿relacionados?
En el aprendizaje por refuerzo (RL) es habitual imaginar un proceso de decisión de Markov (MDP) subyacente. Entonces, el objetivo del RL es aprender una buena política para el MDP, que a menudo sólo está parcialmente especificado. Los MDP pueden tener diferentes objetivos, como la recompensa total, media o descontada, siendo la recompensa descontada el supuesto más común para el RL. Existen extensiones bien estudiadas de los MDP a entornos de dos jugadores (es decir, juegos); véase, por ejemplo,
Filar, Jerzy, y Koos Vrieze. Procesos de decisión de Markov competitivos . Springer Science & Business Media, 2012.
Existe una teoría subyacente compartida por los MDP y sus extensiones a juegos de dos jugadores (suma cero), que incluye, por ejemplo, el teorema del punto fijo de Banach, la iteración de valores, la optimalidad de Bellman, la iteración de políticas/mejora de estrategias, etc. Sin embargo, aunque existen estas estrechas conexiones entre los MDP (y por tanto la RL) y este tipo específico de juegos:
La teoría de juegos está bastante implicada en el contexto del aprendizaje por refuerzo multiagente (MARL).
Eche un vistazo a los juegos estocásticos o lea el artículo Análisis de la teoría de juegos estocásticos para el aprendizaje por refuerzo multiagente .
Yo no vería GT como un requisito previo para RL. Sin embargo, es una buena extensión para el caso de los agentes múltiples.
RL: Se entrena a un único agente para resolver un problema de decisión de Markov (MDPS). GT: Dos agentes son entrenados para resolver Juegos. Se puede utilizar un aprendizaje por refuerzo multiagente (MARL) para resolver juegos estocásticos.
Si estás interesado en la aplicación de la RL en el aprendizaje profundo a un solo agente, entonces no necesitas ir a ningún curso de GT. Para dos o más agentes puede que necesites conocer las técnicas de teoría de juegos.
Si ya conoce la teoría de juegos, es posible que vea muchos paralelismos con el aprendizaje por refuerzo con múltiples agentes. La teoría de la decisión, que en esencia es la teoría de juegos con un jugador, es un segundo campo similar y quizá más cercano a los entornos con un único agente.
Los conceptos de solución de Dominación Estricta e Inducción Hacia Atrás se corresponden con los pasos principales utilizados en el algoritmo de iteración de la política rl, que realiza una estimación BI de la función de valor seguida del paso de codificación SD
Los campos parecen divergir en algunos aspectos: la teoría de juegos tiende a hacer fuertes suposiciones sobre estrategias totalmente especificadas de antemano y jugadores racionales incluso cuando se enfrentan a un árbol de decisiones infinito. La RL trata de resolver estos problemas en línea y con un mínimo de recursos informáticos.
En este sentido, rl ofrece un enfoque más realista y algorítmico para resolver esencialmente la misma clase de problemas.
El proceso de decisión de Markov MDP utilizado para formalizar rl hace uso de la propiedad de Markov sobre el estado, lo que significa que las decisiones de rl se toman basándose en el estado actual y carecen de memoria de acciones anteriores [a menos que se incluyan explícitamente en el estado].
El entorno de RL puede modelarse mediante MDP (Proceso de Decisión de Markov), en caso de que se trate de un único agente. Si el entorno consta de múltiples agentes, en este caso se denomina RL Multiagente (MARL), entonces la Teoría de Juegos (GT) puede ayudar. GT se utiliza con MARL cuando existe algún tipo de competencia entre los agentes. Pero, si sus agentes van a ser totalmente cooperativos (lo que significa que los agentes cooperan juntos para lograr un objetivo común), en este caso puede que necesite encontrar algunos otros enfoques para la coordinación.
Los ajustes de MARL se dividen en tres categorías:
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.