7 votos

Estados ocultos en campos aleatorios condicionales ocultos

Estoy tratando de estudiar los campos aleatorios condicionales ocultos, pero todavía tengo algunas preguntas fundamentales sobre esos métodos. Estaría inmensamente agradecido si alguien pudiera proporcionar alguna aclaración sobre la notación utilizada en la mayoría de los artículos sobre el tema.

En varios documentos la forma más común del modelo HCRF se da como:

$p(w|o;\theta) = \frac{1}{z(o; \theta)} \sum_{s} \exp{ \Psi(w, s, o; \theta) } $

En el que $\theta$ es el vector de parámetros, $w$ es la etiqueta de la clase, $o$ es la secuencia de observación, $s$ es la secuencia de estados ocultos y $\Psi$ es la función potencial. Sin embargo, todavía no he podido averiguar qué $s$ significa. ¿Es sólo una secuencia de números enteros, o es realmente una secuencia de nodos en un gráfico? ¿Cómo se calcula realmente esta suma?

La mayoría de los periódicos I han leído mencionar sólo que cada $s_i \in S$ captura cierta estructura subyacente de cada clase ( $S$ siendo el conjunto de estados ocultos del modelo). Pero todavía no he podido entender qué significa esto en realidad.

3voto

ScottKoon Puntos 2139

He publicado mi pregunta en otro sitio, donde tampoco he recibido la respuesta que buscaba. Allí respondí a mi propia pregunta y he decidido responderla también aquí: En el caso de un HCRF de cadena lineal, las secuencias de estados ocultos se calculan exactamente igual que en los modelos de Markov ocultos.

La formulación HCRF que utiliza camarillas máximas generaliza gran parte de la estructura de un clasificador general de Markov oculto. Los clasificadores de Markov ocultos se construyen generalmente considerando las probabilidades a priori sobre cada modelo posible y estimando la etiqueta de clase mediante el cálculo de sus probabilidades a posteriori. Si representamos cada modelo mediante una función potencial de camarilla, y restringimos cada función potencial a una única etiqueta de clase, podemos reproducir esta estructura exacta en un HCRF. La única diferencia será que los parámetros en un HCRF no estarán restringidos a las probabilidades, por lo que también podemos ver que todas las posibles soluciones dadas por los clasificadores de Markov son sólo un subconjunto de las posibles soluciones dadas por los HCRF.

Por cierto, la suma a la que me refería en la pregunta original es intratable de calcular en su forma dada. Dado que representa el resultado de la función potencial sobre todos los caminos posibles, en el caso de una cadena lineal, en lugar de intentar calcular esta suma directamente, podemos proceder calculando la probabilidad de que se produzca cada estado/transición en el modelo y multiplicando esta probabilidad por los resultados de la función potencial a lo largo de esos estados/transiciones en una sola pasada utilizando el algoritmo suma-producto.

Tampoco es necesario calcular el modelo mediante EM. Dado que su gradiente está disponible, se puede utilizar cualquier optimizador de funciones estándar para realizar el trabajo. El gradiente conjugado o las actualizaciones del gradiente estocástico parecen funcionar mejor, ya que pueden tratar mejor las violaciones de la convexidad.

Por favor, que alguien me corrija si me he equivocado en algo. El mejor recurso que he encontrado hasta ahora para ayudar a entender los CRFs y HCRFs (que son sólo CRFs con variables latentes) ha sido este tutorial de C. Sutton. Espero que pueda ser de alguna ayuda para otros que también tengan las mismas preguntas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X