Estoy intrigado por el concepto de un Máximo de Entropía Modelo de Markov (MEMM), y estoy pensando en de su uso para una Parte de la oración (POS) tagger. Por el momento, estoy usando una convencional La máxima Entropía (ME) clasificador a la etiqueta de cada palabra individual. Este utiliza un número de características, incluyendo los últimos dos etiquetas.
MEMMs utilizar el algoritmo de Viterbi para encontrar la trayectoria óptima a través de la Cadena de Markov (es decir. para encontrar un completo conjunto óptimo de etiquetas para la frase en lugar de individuales optimums para cada palabra). Leer acerca de ella, esto parece ser una maravillosa elegancia y simplicidad. Sin embargo, cada etapa sólo se basa en los "resultados" de la etapa anterior (es decir, como por una Cadena de Markov).
Sin embargo, a mi ME modelo utiliza las dos anteriores etapas (por ejemplo, las etiquetas para el período de dos palabras). Parece que tiene dos enfoques posibles:
Como con un convencionales de Viterbi aplicación, el uso de un conjunto de rutas almacenados de acuerdo a uno (el anterior) de la etapa. A mi ME clasificador utilizar esto y un 'frozen' de la etapa antes de este (congelado en el camino bajo consideración) para producir la función de transferencia.
O escribo el algoritmo a seguir la pista de dos etapas. Esto es más complicado y ya no sería un verdadero Modelo de Markov, ya que cada función de transferencia (es decir, desde que ME Modelo) dependería de las dos anteriores etapas y no de una etapa.
Me llama la atención que la segunda será más precisa, aunque será más complicado.
Todavía tengo que encontrar ejemplos de esto durante mi búsqueda de la literatura. Ha sido probado? Hizo las dos fases dar una mejora a la precisión global?