26 votos

Ejemplos de la vida real de Procesos de Decisión de Markov

He estado viendo muchos videos tutoriales y todos parecen iguales. Este, por ejemplo: https://www.youtube.com/watch?v=ip4iSMRW5X4

Explican estados, acciones y probabilidades, lo cual está bien. La persona lo explica bien pero simplemente no logro entender para qué se usaría en la vida real. Hasta ahora no he encontrado ninguna lista. El más común que veo es el ajedrez.

¿Se puede utilizar para predecir cosas? De ser así, ¿qué tipos de cosas? ¿Puede encontrar patrones entre cantidades infinitas de datos? ¿Qué puede hacer este algoritmo por mí?

Bonus: También parece que los MDP's se tratan de ir de un estado a otro, ¿es cierto?

38voto

Mike P. Puntos 111

Un Proceso de Decisión Markoviano tiene que ver con ir de un estado a otro y se utiliza principalmente para planificar y tomar decisiones.

La teoría

Simplemente repitiendo rápidamente la teoría, un MDP es:

$$\text{MDP} = \langle S,A,T,R,\gamma \rangle$$

donde $S$ son los estados, $A$ las acciones, $T$ las probabilidades de transición (es decir, las probabilidades $Pr(s'|s, a)$ de ir de un estado a otro dado una acción), $R$ las recompensas (dado un cierto estado, y posiblemente acción), y $\gamma$ es un factor de descuento que se utiliza para reducir la importancia de las recompensas futuras.

Por lo tanto, para utilizarlo, necesitas tener predefinido:

  1. Estados: estos pueden referirse por ejemplo a mapas de cuadrícula en robótica, o por ejemplo puerta abierta y puerta cerrada.
  2. Acciones: un conjunto fijo de acciones, como por ejemplo ir al norte, sur, este, etc. para un robot, o abrir y cerrar una puerta.
  3. Probabilidades de transición: la probabilidad de ir de un estado a otro dado una acción. Por ejemplo, ¿cuál es la probabilidad de una puerta abierta si la acción es abrir? En un mundo perfecto esto último podría ser 1.0, pero si se trata de un robot, podría haber fallado en manejar correctamente el picaporte. Otro ejemplo en el caso de un robot en movimiento sería la acción norte, que en la mayoría de los casos lo llevaría a la celda de la cuadrícula al norte de él, pero en algunos casos podría haberse movido demasiado y haber alcanzado la siguiente celda, por ejemplo.
  4. Recompensas: estas se utilizan para guiar la planificación. En el ejemplo de la cuadrícula, podríamos querer ir a una celda específica, y la recompensa será mayor si nos acercamos. En el caso del ejemplo de la puerta, una puerta abierta podría dar una alta recompensa.

Una vez que se define el MDP, se puede aprender una política realizando Iteración de Valor o Iteración de Política que calculan la recompensa esperada para cada uno de los estados. La política luego da por estado la acción mejor (dado el modelo MDP) a realizar.

En resumen, un MDP es útil cuando se quiere planificar una secuencia eficiente de acciones en la que tus acciones no siempre son 100% efectivas.

Tus preguntas

¿Se puede usar para predecir cosas?

Yo lo llamaría planificación, no predicción como regresión por ejemplo.

En caso afirmativo, ¿qué tipos de cosas?

Ver ejemplos.

¿Puede encontrar patrones entre cantidades infinitas de datos?

Los MDP se utilizan para hacer Aprendizaje por Refuerzo, para encontrar patrones necesitas Aprendizaje No Supervisado. Y no, no puedes manejar una cantidad infinita de datos. De hecho, la complejidad de encontrar una política crece exponencialmente con el número de estados $|S|$.

¿Qué puede hacer este algoritmo por mí?

Ver ejemplos.

Ejemplos de Aplicaciones de MDPs

Y hay varios modelos más. Un modelo aún más interesante es el Proceso de Decisión Markoviano Parcialmente Observable en el cual los estados no son completamente visibles, y en su lugar, se utilizan observaciones para tener una idea del estado actual, pero esto está fuera del alcance de esta pregunta.

Información Adicional

Un proceso estocástico es Markoviano (o tiene la propiedad de Markov) si la distribución de probabilidad condicional de los estados futuros depende solo del estado actual, y no de los anteriores (es decir, no de una lista de estados anteriores).

3 votos

Esta es probablemente la respuesta más clara que he visto en Cross Validated.

0 votos

¿Hay alguna posibilidad de que puedas arreglar los enlaces? Algunos de ellos parecen estar rotos o desactualizados.

0 votos

Entonces, ¿cualquier proceso que tenga los estados, acciones, probabilidades de transición y recompensas definidas sería llamado Markoviano?

0voto

Ashok Chhetri Puntos 11

Bono: ¿También se siente como si MDP se tratara de pasar de un estado a otro, es esto cierto?

  • Dado que MDP se trata de tomar decisiones futuras tomando acciones en el presente, ¡sí! se trata de pasar del estado presente a un estado futuro que devuelve más recompensas.

Para responder al comentario de @Suhail Gupta:

¿Entonces cualquier proceso que tenga los estados, acciones, probabilidades de transición y recompensas definidos sería llamado Markoviano?

  • El proceso para ser llamado Markoviano también debe seguir la propiedad de Markov junto con lo que has mencionado; la propiedad dice, "el estado futuro depende de la acción tomada en el estado presente y no es afectado por los estados pasados."

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X