3 votos

La propiedad de Markov en la práctica RL

En los libros de texto estándar de RL solemos utilizar el marco MDP, en el que asumimos que el estado actual es independiente de toda la historia dada por el estado anterior. Obviamente, en la vida real esta suposición no siempre es válida y a menudo puede convertirse en una razón para que un algoritmo de RL falle en un entorno específico. Sin embargo, la mayoría de las investigaciones actuales sobre RL asumen la propiedad de Markov. ¿Por qué?

EDITAR: Conozco los MDP de orden superior que se mencionan en los comentarios. Mi pregunta estaba más relacionada con lo que actualmente hacen en la práctica los algoritmos de RL más avanzados. Por ejemplo, el DDPG con observaciones que no son de imagen (es decir, observaciones de bajo nivel como el par de torsión, la aceleración, etc.) sólo considera la última observación (sin ningún aumento de la observación). El DQN aplicado en Atari y sus derivados utiliza efectivamente varias imágenes anteriores, pero la razón principal es inferir las velocidades y el movimiento de los píxeles (es decir, hacer que las observaciones de imagen sean equivalentes a las observaciones de bajo nivel mencionadas anteriormente).

De hecho, el truco de aplicar el aumento de la observación se utiliza a veces, pero todavía es muy raro. Además, el número de estados previos considerados suele ser muy pequeño y se ajusta manualmente. Pero, aparte de las pruebas empíricas, ¿cómo sabemos que utilizar un número grande, por ejemplo 50, no es la mejor opción (dejando de lado la complejidad computacional de utilizar 50 imágenes como entrada a una NN). Además, estos modelos no tienen en cuenta realmente las acciones realizadas anteriormente. Supongo que lo que intento preguntar es por qué no intentamos utilizar algún enfoque más automatizado para determinar estas dependencias, por ejemplo algo como LSTM (aparte del hecho de que el entrenamiento de dicho modelo se vuelve más difícil).

3voto

Dennis Soemers Puntos 292

Sin embargo, la mayoría de las investigaciones actuales sobre RL asumen la propiedad de Markov. ¿Por qué?

La principal razón para suponer que la propiedad de Markov se cumple es que permite realizar pruebas teóricas (por ejemplo, pruebas de convergencia a políticas óptimas en el límite) para ciertos algoritmos. Intuitivamente, se puede interpretar la propiedad de Markov como que "mi representación de estado contiene toda la información relevante para la toma de decisiones". Con esa intuición, creo que es fácil ver que nunca vas a poder demostrar nada sobre la convergencia a la optimidad si no tienes esa suposición.

Supongo que se puede argumentar que las pruebas teóricas que se basan en supuestos poco realistas tienen un valor limitado, pero se sigue considerando útil demostrar este tipo de propiedades al menos para ciertos casos.

En la práctica, hay muchas investigaciones en las que los algoritmos de RL se evalúan empíricamente en entornos en los que la propiedad de Markov puede no cumplirse del todo (o en los que se desconoce si se cumple). La suposición es simplemente necesaria para un marco teórico sólido.

Pero, aparte de las pruebas empíricas, ¿cómo sabemos que usar un número grande, digamos 50, no es la mejor opción (dejando de lado la complejidad computacional de usar 50 imágenes como entrada a una NN)?

No lo sabemos, y en la práctica precisamente esa complejidad computacional será el factor decisivo.

Además, estos modelos no tienen en cuenta realmente las acciones que se llevaron a cabo anteriormente. Supongo que lo que intento preguntar es por qué no intentamos utilizar algún enfoque más automatizado para determinar estas dependencias, por ejemplo algo como LSTM (aparte del hecho de que el entrenamiento de dicho modelo se vuelve más difícil).

En virtud de la propiedad de Markov, no debería ser necesario tener en cuenta las acciones realizadas anteriormente (si las acciones más antiguas siguen siendo importantes, sus efectos deberían encapsularse de algún modo en la representación del estado de acuerdo con la propiedad de Markov). Por supuesto, puede que esto no se cumpla en la práctica, en cuyo caso tus sugerencias pueden conducir a un mejor rendimiento empírico. No estoy seguro al 100%, supongo que algunas personas ya habrán probado esas ideas también. Sin embargo, aumentar la complejidad de la red de esa manera también puede conducir a un problema de aprendizaje más difícil. Puede que en teoría mejore la capacidad de su red para aprender la política realmente óptima, pero en la práctica hace que el aprendizaje sea mucho más complicado que le cueste aprender. La red más sencilla puede, en teoría, ser incapaz de aprender una política realmente óptima, pero al menos es capaz de aprender algo ''suficientemente bueno'' en la práctica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X