¿Qué es una explicación intuitiva de una cadena de Markov y cómo funcionan? Proporcione al menos un ejemplo práctico.
Respuestas
¿Demasiados anuncios?Una cadena de Markov es un proceso aleatorio discreto con la propiedad de que el estado siguiente depende sólo del estado actual actual ( wikipedia )
Así que $P(X_n | X_1, X_2, \dots X_{n-1}) = P(X_n | X_{n-1})$ . Un ejemplo podría ser cuando se está modelando el tiempo. Se puede suponer que el tiempo de hoy puede predecirse utilizando únicamente los conocimientos de ayer.
Digamos que tenemos a Rainy y Sunny. Cuando un día es lluvioso, el día siguiente es soleado con probabilidad $0.3$ . Cuando hace sol, la probabilidad de que llueva al día siguiente es $0.4$ .
Ahora bien, si hoy está soleado, podemos predecir el tiempo de pasado mañana, simplemente calculando la probabilidad de que llueva mañana, multiplicándola por la probabilidad de que haya sol después de la lluvia, más la probabilidad de que haya sol mañana por la probabilidad de que haya sol después. En total la probabilidad de Sol de pasado mañana es $P(R|S) \cdot P(S|R) + P(S|S) \cdot P(S|S) = 0.3 \cdot 0.4+0.6 \cdot 0.6 = 0.48$ .
En pocas palabras, una cadena de Markov es (el comportamiento de) un proceso aleatorio que sólo puede encontrarse en un número (no necesariamente finito) de estados diferentes. El proceso pasa de un estado a otro en tiempos discretos (es decir, se define una secuencia S(t) de estados en el tiempo t=0,1,2,...), y para el que la probabilidad de pasar del estado S al estado R depende sólo de S y R; es decir, no hay "memoria del pasado" y el proceso es "atemporal". Esto significa que la cadena de Markov puede modelarse como una matriz n*n, donde n es el número de estados posibles.
Un ejemplo de un proceso que puede ser modelado por una cadena de Markov es la secuencia de caras de un dado que se muestra, si se permite girar el dado en torno a un borde. La matriz correspondiente es
1 2 3 4 5 6
------------------------
1 | 0 1/4 1/4 1/4 1/4 0
2 | 1/4 0 1/4 1/4 0 1/4
3 | 1/4 1/4 0 0 1/4 1/4
4 | 1/4 1/4 0 0 1/4 1/4
5 | 1/4 0 1/4 1/4 0 1/4
1 | 0 1/4 1/4 1/4 1/4 0
Las cadenas de Markov, especialmente los modelos de Markov ocultos, son muy importantes en la lingüística computacional. Un modelo de Markov oculto es aquel en el que no podemos ver directamente el estado, pero tenemos alguna información sobre lo que podría ser el estado. Por ejemplo, consideremos el desglose de una frase en lo que se denomina "partes de la oración", como verbos, adjetivos, etc. No sabemos cuáles son las partes de la oración, pero podemos intentar deducirlas a partir de la palabra. Por ejemplo, la palabra ejecute puede utilizarse un 80% como verbo, un 18% de las veces como sustantivo y un 2% de las veces como adjetivo. También tenemos relaciones (de Markov) entre las partes de la oración, por lo que, por ejemplo, un adjetivo puede ir seguido de un sustantivo el 70% de las veces y de otro adjetivo el 30%.
Podemos utilizar el Algoritmo de Viterbi para decidir qué secuencia es más probable que haya generado la frase observada. Este algoritmo tiene en cuenta dos factores:
- la probabilidad de que dicha secuencia de partes de la oración ocurra junta en una frase
- la probabilidad relativa de que esa secuencia de partes de la oración sea la responsable de que observemos la frase dada.
Las cadenas de Markov se utilizan en Markov Chain Monte Carlo (MCMC). Esta técnica computacional es muy común en la estadística bayesiana.
En la estadística bayesiana, se desea calcular las propiedades de una distribución posterior. Le gustaría extraer muestras independientes de esta distribución, pero a menudo esto es poco práctico. Así que se construye una cadena de Markov que tiene como distribución límite la distribución que se desea. Así, por ejemplo, para obtener la media de tu distribución posterior puedes tomar la media de los estados de tu cadena de Markov. (La teoría ergódica bendice este proceso).
En la universidad, tuve un proyecto de programación en el que generamos grandes cantidades de texto en inglés utilizando cadenas de Markov. El la asignación está aquí aunque no sé si ese enlace será bueno para siempre. De esa página:
Por ejemplo, supongamos que [nuestras cadenas de Markov son de longitud] 2 y el archivo de muestra contiene
I like the big blue dog better than the big elephant with the big blue hat on his tusk.
Así es como las tres primeras palabras pueden ser elegidas:
Se elige al azar una secuencia de dos palabras para que sea el prefijo inicial. Supongamos que se elige "el grande". elegida.
La primera palabra debe elegirse en función de la probabilidad de que siga al prefijo (actualmente "el grande") en la fuente. La fuente contiene tres apariciones de "el grande". Dos veces va seguido de "azul", y una vez va seguida de "elefante". Por lo tanto, la siguiente palabra debe ser elegida de manera que haya un 2/3 probabilidad de que se elija "azul", y 1/3 de posibilidades de que se elija "elefante". elefante". Supongamos que esta vez elegimos "azul" esta vez.
La siguiente palabra debe elegirse en función de la probabilidad de que siga al prefijo (actualmente "big azul") en la fuente. La fuente contiene dos apariciones de "big azul". Una de ellas va seguida de "perro", y la otra vez va seguida de "sombrero". Por lo tanto, la siguiente palabra debe ser elegida de manera que haya una probabilidad probabilidad de elegir "perro" frente a "sombrero". Supongamos que esta vez elegimos "sombrero" esta vez.
La siguiente palabra debe elegirse en función de la probabilidad de que siga al prefijo (actualmente "blue hat") en la fuente. La fuente contiene sólo una ocurrencia de "blue hat", y le sigue "on". Por lo tanto, la siguiente palabra debe ser "on" (100% de probabilidad).
Así, las tres primeras palabras del texto de salida serían "sombrero azul on".
Sigue así, generando un texto que no tiene ningún sentido, pero que acaba teniendo el mismo "tono" que el texto original. Por ejemplo, si tu archivo de muestra es el texto completo de Alicia en el País de las Maravillas (uno de los textos con los que lo probamos), tu sinsentido resulta algo caprichoso y carrolliano (si es que eso es una palabra). Si tu archivo de muestra es El corazón delator, obtendrás un sinsentido algo oscuro y mórbido.
De todos modos, aunque no es una definición rigurosa y formal, espero que esto le ayude a hacerse una idea de lo que es una cadena de Markov.