En los libros de texto estándar de RL solemos utilizar el marco MDP, en el que asumimos que el estado actual es independiente de toda la historia dada por el estado anterior. Obviamente, en la vida real esta suposición no siempre es válida y a menudo puede convertirse en una razón para que un algoritmo de RL falle en un entorno específico. Sin embargo, la mayoría de las investigaciones actuales sobre RL asumen la propiedad de Markov. ¿Por qué?
EDITAR: Conozco los MDP de orden superior que se mencionan en los comentarios. Mi pregunta estaba más relacionada con lo que actualmente hacen en la práctica los algoritmos de RL más avanzados. Por ejemplo, el DDPG con observaciones que no son de imagen (es decir, observaciones de bajo nivel como el par de torsión, la aceleración, etc.) sólo considera la última observación (sin ningún aumento de la observación). El DQN aplicado en Atari y sus derivados utiliza efectivamente varias imágenes anteriores, pero la razón principal es inferir las velocidades y el movimiento de los píxeles (es decir, hacer que las observaciones de imagen sean equivalentes a las observaciones de bajo nivel mencionadas anteriormente).
De hecho, el truco de aplicar el aumento de la observación se utiliza a veces, pero todavía es muy raro. Además, el número de estados previos considerados suele ser muy pequeño y se ajusta manualmente. Pero, aparte de las pruebas empíricas, ¿cómo sabemos que utilizar un número grande, por ejemplo 50, no es la mejor opción (dejando de lado la complejidad computacional de utilizar 50 imágenes como entrada a una NN). Además, estos modelos no tienen en cuenta realmente las acciones realizadas anteriormente. Supongo que lo que intento preguntar es por qué no intentamos utilizar algún enfoque más automatizado para determinar estas dependencias, por ejemplo algo como LSTM (aparte del hecho de que el entrenamiento de dicho modelo se vuelve más difícil).