11 votos

Importancia de las probabilidades de transición iniciales en un modelo de Markov oculto

¿Cuáles son las ventajas de dar ciertos valores iniciales a las probabilidades de transición en un modelo de Markov oculto? Al final, el sistema los aprenderá, así que ¿qué sentido tiene dar valores distintos a los aleatorios? ¿Influye el algoritmo subyacente, como el de Baum-Welch?

Si conozco las probabilidades de transición al principio con mucha precisión, y mi objetivo principal es predecir las probabilidades de salida del estado oculto a las observaciones, ¿qué me aconsejarías?

8voto

Nathan Long Puntos 30303

Baum-Welch es un algoritmo de optimización para calcular el estimador de máxima verosimilitud. Para los modelos de Markov ocultos, la superficie de verosimilitud puede ser bastante fea, y ciertamente no es cóncava. Con buenos puntos de partida, el algoritmo puede converger más rápido y hacia el MLE.

Si ya conoces las probabilidades de transición y quieres predecir los estados ocultos mediante el algoritmo de Viterbi, necesitas las probabilidades de transición. Si ya las conoce, no es necesario reestimarlas mediante Baum-Welch. La reestimación es computacionalmente más cara que la predicción.

6voto

Sergey Puntos 391

Algunos de los materiales relativos a las estimaciones iniciales de HMM figuran en

Lawrence R. Rabiner (febrero de 1989). "A tutorial on Hidden Markov Models and selected applications in speech recognition". Proceedings of the IEEE 77 (2): 257-286. doi:10.1109/5.18626 (Sección V.C)

También puede echar un vistazo a la Kit de herramientas de modelado probabilístico para Matlab/Octave especialmente hmmFitEm donde puede proporcionar su propio parámetro inicial del modelo o simplemente usar la opción 'nrandomRestts'. Mientras se utiliza 'nrandomRestarts', el primer modelo (en el paso init) utiliza:

  • Ajustar una mezcla de gaussianos a través de MLE/MAP (usando EM) para datos continuos;
  • Ajustar una mezcla de producto de distribuciones discretas mediante MLE/MAP (usando EM) para datos discretos;

el segundo, tercer modelo... (en el paso init) utilizan parámetros inicializados aleatoriamente y como resultado convergen más lentamente con valores de Log Likelihood más bajos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X