El procedimiento E-M parece, para los no iniciados, más o menos magia negra. Estima los parámetros de un HMM (por ejemplo) utilizando datos supervisados. A continuación, decodificar los datos no etiquetados, utilizando el avance y retroceso para "contar" los eventos como si los datos estuvieran etiquetados, más o menos. ¿Por qué mejora esto el modelo? Sé algo de matemáticas, pero sigo deseando tener alguna imagen mental de ello.
Respuesta
¿Demasiados anuncios?Sólo para ahorrar un poco de mecanografía, llame a los datos observados X los datos que faltan Z (por ejemplo, los estados ocultos del HMM), y el vector de parámetros que intentamos encontrar Q (por ejemplo, probabilidades de transición/emisión).
La explicación intuitiva es que básicamente hacemos trampas, fingimos por un momento que sabemos Q por lo que podemos encontrar una distribución condicional de Z que a su vez nos permite encontrar el MLE para Q (ignorando por el momento el hecho de que básicamente estamos haciendo un argumento circular), luego admitir que hicimos trampa, poner nuestro nuevo y mejor valor para Q y volver a hacerlo hasta que ya no tengamos que hacer trampas.
Un poco más técnicamente, pretendiendo que conocemos el valor real Q podemos pretender que sabemos algo sobre la distribución condicional de Z|{X,Q} lo que nos permite mejorar nuestra estimación de Q que ahora pretendemos que es el valor real de Q así que podemos pretender que sabemos algo sobre la distribución condicional de Z|{X,Q} lo que nos permite mejorar nuestra estimación de Q y así sucesivamente.
Aún más técnicamente, si supiéramos Z podríamos maximizar log(f(Q|X,Z)) y tener la respuesta correcta. El problema es que no sabemos Z y cualquier estimación de Q debe depender de ello. Pero si queremos encontrar la mejor estimación (o distribución) para Z entonces necesitamos saber X y Q . Estamos atrapados en una situación del huevo y la gallina si queremos el maximizador único analíticamente.
Nuestra "salida" es que -- para cualquier estimación de Q (llámalo Qn ) -- podemos encontrar la distribución de Z|{Qn,X} y así podemos maximizar nuestro esperado probabilidad logarítmica conjunta de Q|{X,Z} con respecto a la distribución condicional de Z|{Qn,X} . Esta distribución condicional nos dice básicamente cómo Z depende del valor actual de Q dado X y nos indica cómo cambiar Q para aumentar nuestras probabilidades de Q y Z al mismo tiempo para un valor determinado de Q (que hemos llamado Qn ). Una vez que hayamos elegido un nuevo Qn+1 tenemos una distribución condicional diferente para Z|{Qn+1,X} y así tener que recalcular la expectativa.