El procedimiento E-M parece, para los no iniciados, más o menos magia negra. Estima los parámetros de un HMM (por ejemplo) utilizando datos supervisados. A continuación, decodificar los datos no etiquetados, utilizando el avance y retroceso para "contar" los eventos como si los datos estuvieran etiquetados, más o menos. ¿Por qué mejora esto el modelo? Sé algo de matemáticas, pero sigo deseando tener alguna imagen mental de ello.
Respuesta
¿Demasiados anuncios?Sólo para ahorrar un poco de mecanografía, llame a los datos observados $X$ los datos que faltan $Z$ (por ejemplo, los estados ocultos del HMM), y el vector de parámetros que intentamos encontrar $Q$ (por ejemplo, probabilidades de transición/emisión).
La explicación intuitiva es que básicamente hacemos trampas, fingimos por un momento que sabemos $Q$ por lo que podemos encontrar una distribución condicional de Z que a su vez nos permite encontrar el MLE para $Q$ (ignorando por el momento el hecho de que básicamente estamos haciendo un argumento circular), luego admitir que hicimos trampa, poner nuestro nuevo y mejor valor para $Q$ y volver a hacerlo hasta que ya no tengamos que hacer trampas.
Un poco más técnicamente, pretendiendo que conocemos el valor real $Q$ podemos pretender que sabemos algo sobre la distribución condicional de $Z|\{X,Q\}$ lo que nos permite mejorar nuestra estimación de $Q$ que ahora pretendemos que es el valor real de $Q$ así que podemos pretender que sabemos algo sobre la distribución condicional de $Z|\{X,Q\}$ lo que nos permite mejorar nuestra estimación de $Q$ y así sucesivamente.
Aún más técnicamente, si supiéramos $Z$ podríamos maximizar $\log(f(Q|X,Z))$ y tener la respuesta correcta. El problema es que no sabemos $Z$ y cualquier estimación de $Q$ debe depender de ello. Pero si queremos encontrar la mejor estimación (o distribución) para $Z$ entonces necesitamos saber $X$ y $Q$ . Estamos atrapados en una situación del huevo y la gallina si queremos el maximizador único analíticamente.
Nuestra "salida" es que -- para cualquier estimación de $Q$ (llámalo $Q_n$ ) -- podemos encontrar la distribución de $Z|\{Q_n,X\}$ y así podemos maximizar nuestro esperado probabilidad logarítmica conjunta de $Q|\{X,Z\}$ con respecto a la distribución condicional de $Z|\{Q_n,X\}$ . Esta distribución condicional nos dice básicamente cómo $Z$ depende del valor actual de $Q$ dado $X$ y nos indica cómo cambiar $Q$ para aumentar nuestras probabilidades de $Q$ y $Z$ al mismo tiempo para un valor determinado de $Q$ (que hemos llamado $Q_n$ ). Una vez que hayamos elegido un nuevo $Q_{n+1}$ tenemos una distribución condicional diferente para $Z|\{Q_{n+1}, X\}$ y así tener que recalcular la expectativa.