5 votos

Diagrama de iteración de políticas en Jack's Car Rental (en aprendizaje por refuerzo)

¿Puede alguien ayudar a explicar un poco más los diagramas del ejemplo de Jack's Car Rental del libro de Richard Sutton "Reinforcement Learning: An Introduction"? La imagen es así: enter image description here

No entiendo qué significan todas las curvas escalonadas y 1-2-3-4 por cada póliza $\pi_{i}$

La descripción detallada del caso es la siguiente: (citado)

Ejemplo 4.2: Jack's Car Rental Jack gestiona dos sedes de una empresa de alquiler de coches de ámbito nacional. Cada día, un cierto número de clientes llegan a cada local para alquilar coches. Si Jack tiene un coche disponible, lo Si Jack tiene un coche disponible, lo alquila y la empresa nacional le abona 10 dólares. Si no tiene Si se queda sin coches en ese lugar, el negocio se pierde.

Los coches están disponibles para su alquiler al día siguiente de su devolución. Para para asegurar que los coches están disponibles donde se necesitan, Jack puede trasladarlos entre las dos ubicaciones durante la noche, con un coste de \$2 per car moved. We assume that the number of cars requested and returned at each location are Poisson random variables, meaning that the probability that the number is n is $ \frac{\lambda^{n}}{n!} > e^{-\lambda} $, donde es el número esperado. Supongamos que es 3 y 4 para las solicitudes de alquiler en la primera y segunda ubicación y 3 y 2 para devoluciones.

Para simplificar un poco el problema, suponemos que no puede haber más más de 20 coches en cada lugar (cualquier coche adicional se devuelve a la empresa nacional y, por tanto, desaparecen del problema) y un máximo de de cinco coches de un lugar a otro en una noche. Tomamos como tasa de descuento = 0,9 y lo formulamos como un como un MDP finito continuo, en el que los pasos de tiempo son días, el estado es el número de coches en cada ubicación al final del día, y las acciones son los números netos de coches que se mueven entre las dos ubicaciones durante la noche. La figura 4.2 muestra la secuencia de políticas encontradas por la iteración de políticas empezando por la política que nunca mueve ningún coche.

6voto

Scott MacDougall Puntos 1

Las curvas escalonadas muestran los contornos de las diferentes acciones políticas, como un mapa sobre el espacio de estados. Se trata de una opción de visualización de la política, que tiene 441 estados, y que no parecería tan intuitiva en forma de tabla.

Los números son el número de coches que la política decide trasladar de la primera a la segunda ubicación.

Puede buscar la acción óptima desde el $\pi_4$ gráfico para un número específico de coches en cada lugar encontrando el punto de la cuadrícula $(n_{2}, n_{1})$ para ello (leyendo primero el eje horizontal) y ver cuál es el número dentro de esa área - mover ese número de coches de la primera a la segunda ubicación.

La imagen final muestra la función de valor del estado de la política óptima como una superficie 3D en la que la base es el estado y la altura el valor.


Cuando hice este ejercicio, no pude encontrar cómo obtener los contornos etiquetados utilizando matplotlib Así que hice un mapa de colores en su lugar:

enter image description here

Los incrementos de color más intensos significan que los coches se mueven de la primera ubicación a la segunda, la orientación del mapa es diferente a la del libro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X