18 votos

E-M, ¿existe una explicación intuitiva?

El procedimiento E-M parece, para los no iniciados, más o menos magia negra. Estima los parámetros de un HMM (por ejemplo) utilizando datos supervisados. A continuación, decodificar los datos no etiquetados, utilizando el avance y retroceso para "contar" los eventos como si los datos estuvieran etiquetados, más o menos. ¿Por qué mejora esto el modelo? Sé algo de matemáticas, pero sigo deseando tener alguna imagen mental de ello.

12voto

Bernard Puntos 10700

Sólo para ahorrar un poco de mecanografía, llame a los datos observados $X$ los datos que faltan $Z$ (por ejemplo, los estados ocultos del HMM), y el vector de parámetros que intentamos encontrar $Q$ (por ejemplo, probabilidades de transición/emisión).

La explicación intuitiva es que básicamente hacemos trampas, fingimos por un momento que sabemos $Q$ por lo que podemos encontrar una distribución condicional de Z que a su vez nos permite encontrar el MLE para $Q$ (ignorando por el momento el hecho de que básicamente estamos haciendo un argumento circular), luego admitir que hicimos trampa, poner nuestro nuevo y mejor valor para $Q$ y volver a hacerlo hasta que ya no tengamos que hacer trampas.

Un poco más técnicamente, pretendiendo que conocemos el valor real $Q$ podemos pretender que sabemos algo sobre la distribución condicional de $Z|\{X,Q\}$ lo que nos permite mejorar nuestra estimación de $Q$ que ahora pretendemos que es el valor real de $Q$ así que podemos pretender que sabemos algo sobre la distribución condicional de $Z|\{X,Q\}$ lo que nos permite mejorar nuestra estimación de $Q$ y así sucesivamente.

Aún más técnicamente, si supiéramos $Z$ podríamos maximizar $\log(f(Q|X,Z))$ y tener la respuesta correcta. El problema es que no sabemos $Z$ y cualquier estimación de $Q$ debe depender de ello. Pero si queremos encontrar la mejor estimación (o distribución) para $Z$ entonces necesitamos saber $X$ y $Q$ . Estamos atrapados en una situación del huevo y la gallina si queremos el maximizador único analíticamente.

Nuestra "salida" es que -- para cualquier estimación de $Q$ (llámalo $Q_n$ ) -- podemos encontrar la distribución de $Z|\{Q_n,X\}$ y así podemos maximizar nuestro esperado probabilidad logarítmica conjunta de $Q|\{X,Z\}$ con respecto a la distribución condicional de $Z|\{Q_n,X\}$ . Esta distribución condicional nos dice básicamente cómo $Z$ depende del valor actual de $Q$ dado $X$ y nos indica cómo cambiar $Q$ para aumentar nuestras probabilidades de $Q$ y $Z$ al mismo tiempo para un valor determinado de $Q$ (que hemos llamado $Q_n$ ). Una vez que hayamos elegido un nuevo $Q_{n+1}$ tenemos una distribución condicional diferente para $Z|\{Q_{n+1}, X\}$ y así tener que recalcular la expectativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X