¿Puede alguien ayudar a explicar un poco más los diagramas del ejemplo de Jack's Car Rental del libro de Richard Sutton "Reinforcement Learning: An Introduction"? La imagen es así:
No entiendo qué significan todas las curvas escalonadas y 1-2-3-4 por cada póliza $\pi_{i}$
La descripción detallada del caso es la siguiente: (citado)
Ejemplo 4.2: Jack's Car Rental Jack gestiona dos sedes de una empresa de alquiler de coches de ámbito nacional. Cada día, un cierto número de clientes llegan a cada local para alquilar coches. Si Jack tiene un coche disponible, lo Si Jack tiene un coche disponible, lo alquila y la empresa nacional le abona 10 dólares. Si no tiene Si se queda sin coches en ese lugar, el negocio se pierde.
Los coches están disponibles para su alquiler al día siguiente de su devolución. Para para asegurar que los coches están disponibles donde se necesitan, Jack puede trasladarlos entre las dos ubicaciones durante la noche, con un coste de \$2 per car moved. We assume that the number of cars requested and returned at each location are Poisson random variables, meaning that the probability that the number is n is $ \frac{\lambda^{n}}{n!} > e^{-\lambda} $, donde es el número esperado. Supongamos que es 3 y 4 para las solicitudes de alquiler en la primera y segunda ubicación y 3 y 2 para devoluciones.
Para simplificar un poco el problema, suponemos que no puede haber más más de 20 coches en cada lugar (cualquier coche adicional se devuelve a la empresa nacional y, por tanto, desaparecen del problema) y un máximo de de cinco coches de un lugar a otro en una noche. Tomamos como tasa de descuento = 0,9 y lo formulamos como un como un MDP finito continuo, en el que los pasos de tiempo son días, el estado es el número de coches en cada ubicación al final del día, y las acciones son los números netos de coches que se mueven entre las dos ubicaciones durante la noche. La figura 4.2 muestra la secuencia de políticas encontradas por la iteración de políticas empezando por la política que nunca mueve ningún coche.