Para mi tesis de máster, estoy trabajando en el desarrollo de un modelo estadístico para las transiciones entre diferentes estados, definidos por el estado serológico. Por ahora, no daré demasiados detalles en este contexto, ya que mi pregunta es más general/teórica. En cualquier caso, mi intuición es que debería utilizar un modelo de Markov oculto (HMM); el problema con el que me estoy encontrando al revisar la bibliografía y otras investigaciones de fondo necesarias para formular mi modelo es la confusión sobre la terminología y las diferencias exactas entre los distintos tipos de modelos de procesos ocultos. Sólo tengo una idea muy vaga de lo que los distingue (los ejemplos están por llegar). Además, me parece que, al menos por lo que he visto en la literatura, hay un vocabulario muy poco estándar construido en torno a este tipo de modelización, y en ocasiones veo términos utilizados indistintamente en un contexto pero contrastados en otro.
Así que esperaba que la gente pudiera ayudarme a desambiguar algunos de estos términos. Tengo varias preguntas, pero supongo que a medida que una o dos obtengan una respuesta satisfactoria, el resto se irán aclarando. Espero que no sea demasiado largo; si un moderador quiere que lo divida en varios mensajes, lo haré. En cualquier caso, he puesto mis preguntas en negrita, seguidas de los detalles de la pregunta que he descubierto durante mi búsqueda bibliográfica.
Así que, sin ningún orden en particular:
1) ¿Qué es exactamente un "modelo de proceso oculto"?
Tengo la impresión de que "modelo de proceso oculto" es una especie de término general que puede utilizarse para describir distintos tipos de modelos estadísticos, todos ellos esencialmente descripciones probabilísticas de datos de series temporales generados por "un sistema de procesos lineales aditivos superpuestos y potencialmente ocultos" ([1]). De hecho, [2] define un "modelo de proceso oculto" como "un término general que se refiere a un modelo de espacio de estados o a un modelo de Markov oculto". [1] parece inferir que un modelo de Markov oculto es un subtipo de modelos de procesos ocultos específicamente orientados a la inferencia sobre estados binarios; la implicación básica me parece que un modelo de procesos ocultos es una generalización de un modelo de Markov oculto. A veces veo "modelo de procesos ocultos" Y la frase "modelo dinámico de procesos ocultos", pero no me queda claro que sean conceptos distintos.
¿Es correcta esta intuición mía? Si no es así, ¿alguien tiene una referencia que delimite más claramente estos métodos?
2) ¿Cuál es la diferencia entre un modelo de Markov oculto y un modelo de espacio de estados?
Volviendo de nuevo a [2] (aunque sólo sea porque el artículo incluye un glosario claro de términos, no porque el artículo en sí parezca especialmente autorizado; es sólo una fuente práctica de definiciones de una sola frase), la diferencia parece ser que un modelo de Markov oculto es un tipo específico de modelo de espacio de estados en el que los estados son markovianos (no parece haber una restricción definida sobre el orden del proceso de Markov; es decir, primer orden,...,k-ésimo orden). Aquí, un modelo de espacio de estados se define como "Un modelo que ejecuta dos series temporales en paralelo, una captura la dinámica de los estados verdaderos (latentes) y la otra consiste en observaciones que se realizan a partir de estos estados subyacentes pero posiblemente desconocidos." Si esos estados también presentan la propiedad de Markov, entonces se trata de un Modelo de Markov Oculto.
Sin embargo, [3] define que la diferencia entre los modelos de espacio de estados y los modelos de Markov ocultos está relacionada con las características del estado latente. En este caso, un modelo de Markov oculto se ocupa de estados discretos, mientras que los modelos de espacio de estados se ocupan de estados continuos; por lo demás, son conceptualmente idénticos.
Me parecen dos definiciones muy diferentes. Según una, un modelo de Markov oculto es un subtipo de modelo de espacio de estados, mientras que según la otra, ambos son instancias diferentes de una clase más amplia de modelos de procesos ocultos. ¿Cuál de las dos es correcta? Mi intuición me lleva a seguir [3] frente a [2], pero no encuentro ninguna fuente autorizada que lo apoye.
3) ¿Qué es un "modelo de transición de Markov"?
Otro término que ha aparecido en muchas fuentes es "modelo de transición de Markov". No he podido encontrar esta frase en ningún libro de texto, pero aparece mucho en artículos de revistas (basta con introducirla en Google para confirmarlo). No he sido capaz de encontrar una definición rigurosa del término (cada artículo que encuentro cita otro artículo, que cita otro, etc., enviándome a una madriguera de conejo de PubMed que no lleva a ningún sitio cuerdo). Mi impresión por el contexto es que es un término muy general para referirse a cualquier modelo en el que el objeto de inferencia son las transiciones entre estados que siguen un proceso de Markov, y que un Modelo Oculto de Markov puede considerarse un tipo específico de modelo de transición de Markov. Sin embargo, [4] parece utilizar indistintamente modelo de transición, modelo oculto de Markov y varios términos similares.
Por otro lado, [5] habla de los modelos de transición de Markov y de los modelos ocultos de Markov de forma un poco diferente. Los autores afirman: "Los modelos de transición proporcionan un método para resumir dinámica de los encuestados que resulta útil para interpretar los resultados de modelos de Markov ocultos más complejos". No entiendo muy bien qué quieren decir con esta frase y no encuentro ninguna justificación en el artículo. Sin embargo, parecen dar a entender que los modelos de transición de Markov utilizan el tiempo como una variable continua, mientras que los modelos de Markov ocultos utilizan el tiempo como una variable discreta (no lo dicen directamente; dicen que utilizan el paquete R 'msm' para ajustar los modelos de transición de Markov, y más adelante describen que 'msm' trata el tiempo de forma continua en contraste con el paquete R para los HMM).
4) ¿Dónde encajan otros conceptos, como las redes bayesianas dinámicas?
Según Wikipedia, una red bayesiana dinámica es una "generalización de los modelos ocultos de Markov y los filtros de Kalman". En otros sitios, he visto modelos de Markov ocultos definidos como un caso especial de Red Bayesiana Dinámica, "en la que todo el estado del mundo está representado por una única variable de estado oculta" ( ¿Definición de sistema bayesiano dinámico y su relación con los HMM? ). En general entiendo esta relación, y está bien explicada por [6].
Sin embargo, me cuesta entender cómo encaja esta relación en el panorama general de las cosas. Es decir, dada esta relación entre HMM y DBN, ¿cómo se relacionan entre sí los modelos de espacio de estados y los modelos de procesos ocultos? ¿Cómo se interrelacionan todos estos tipos de métodos, dado que parece haber múltiples "generalizaciones" de los modelos de Markov ocultos?
Referencias:
[1] Tom M. Mitchell, Rebecca Hutchinson, Indrayana Rustandi. "Modelos de procesos ocultos". 2006. CMU-CALD-05-116. Universidad Carnegie Mellon.
[2] Oliver Giminez, Jean-Dominique Lebreton, Jean-Michel Gaillard, Remi Choquet, Roger Pradel. "Estimating demographic parameters using hidden process dynamic models". Theoretical Population Biology. 2012. 82(4):307-316.
[3] Barbara Engelhardt. "Modelos de Markov ocultos y modelos de espacio de estados". STA561: Probabilistic machine learning. Universidad de Duke. http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf
[4] Jeroen K. Vermunt. "Multilevel Latent Markov Modeling in Continuous Time with an Application to the Analysis of Ambulatory Mood Assessment Data". Taller de estadística social. 2012. Universidad de Tilburg. http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf
[5] Ken Richardson, David Harte, Kristie Carter. "Understanding health and labour force transitions: Applying Markov models to SoFIE longitudinal data". Serie de investigación de estadísticas oficiales. 2012.
[6] Zoubin Ghahramani. "An Introduction to Hidden Markov Models and Bayesian Networks" (Introducción a los modelos de Markov ocultos y las redes bayesianas). Journal of Pattern Recognition and Artificial Intelligence. 2001. 15(1): 9-42.