He publicado mi pregunta en otro sitio, donde tampoco he recibido la respuesta que buscaba. Allí respondí a mi propia pregunta y he decidido responderla también aquí: En el caso de un HCRF de cadena lineal, las secuencias de estados ocultos se calculan exactamente igual que en los modelos de Markov ocultos.
La formulación HCRF que utiliza camarillas máximas generaliza gran parte de la estructura de un clasificador general de Markov oculto. Los clasificadores de Markov ocultos se construyen generalmente considerando las probabilidades a priori sobre cada modelo posible y estimando la etiqueta de clase mediante el cálculo de sus probabilidades a posteriori. Si representamos cada modelo mediante una función potencial de camarilla, y restringimos cada función potencial a una única etiqueta de clase, podemos reproducir esta estructura exacta en un HCRF. La única diferencia será que los parámetros en un HCRF no estarán restringidos a las probabilidades, por lo que también podemos ver que todas las posibles soluciones dadas por los clasificadores de Markov son sólo un subconjunto de las posibles soluciones dadas por los HCRF.
Por cierto, la suma a la que me refería en la pregunta original es intratable de calcular en su forma dada. Dado que representa el resultado de la función potencial sobre todos los caminos posibles, en el caso de una cadena lineal, en lugar de intentar calcular esta suma directamente, podemos proceder calculando la probabilidad de que se produzca cada estado/transición en el modelo y multiplicando esta probabilidad por los resultados de la función potencial a lo largo de esos estados/transiciones en una sola pasada utilizando el algoritmo suma-producto.
Tampoco es necesario calcular el modelo mediante EM. Dado que su gradiente está disponible, se puede utilizar cualquier optimizador de funciones estándar para realizar el trabajo. El gradiente conjugado o las actualizaciones del gradiente estocástico parecen funcionar mejor, ya que pueden tratar mejor las violaciones de la convexidad.
Por favor, que alguien me corrija si me he equivocado en algo. El mejor recurso que he encontrado hasta ahora para ayudar a entender los CRFs y HCRFs (que son sólo CRFs con variables latentes) ha sido este tutorial de C. Sutton. Espero que pueda ser de alguna ayuda para otros que también tengan las mismas preguntas.