2 votos

Log-verosimilitud promediada con una variable latente para modelos de mezcla

En clase hemos definido lo siguiente:

$$Q(\theta; \theta^t) = \sum_z P(Z=z\mid X=x; \theta^t) \log P(X=x; Z=z;\theta)$$

Forma parte del Algoritmo EM. Toma, $\theta^t$ son los parámetros supuestos en el momento $t$ .

Sólo me pregunto por qué no se definió como probabilidad condicional, así: $$\log P(X=x \mid Z=z;\theta)$$

Estoy buscando la intuición aquí, aparte de "es la definición".

Gracias

2voto

dimebucker91 Puntos 696

No estoy seguro de si hay una historia realmente intuitiva detrás de esto, pero creo que si entiendes la derivación del algoritmo EM verás por qué requerimos que los términos sean como son:

En primer lugar, en el problema estándar de máxima verosimilitud, tenemos un conjunto de datos, $X = (x_1, \dots, x_N)$ decir de tamaño $N$ y tenemos una función de densidad $f(x|\theta)$ con el vector de parámetros $\theta$ . Suponemos que los datos se han extraído de esta distribución. Supongamos que los vectores de datos son independientes, podemos escribir su distribución conjunta:

$$ p(X | \theta) = \prod_{i=1}^n p(x_i | \theta) = L(\theta) $$

que también se conoce como función de verosimilitud cuando se toma como función de $\theta$ . La estimación MLE es entonces la $\theta$ que maximiza la función de verosimilitud (hace que los datos que observamos sean los más probables):

$$ \theta_{\text{MLE}} = \arg \max_{\theta}L(\theta) $$

o, como se hace a menudo, maximizamos la probabilidad logarítmica:

$$ \theta_{\text{MLE}} = \arg \max_{\theta} \log L(\theta) $$

Consideremos ahora el caso en el que necesitamos el algoritmo EM. En estos problemas tenemos una variable oculta (Z) que complica un poco las cosas. Una forma de pensar en esto es pensar en nuestros datos que contienen valores perdidos. De nuevo tenemos nuestros datos, $X$ que ahora llamamos "datos incompletos". A continuación, supondremos que existen datos completos, $Y = (X, Z)$ y especificamos además una función de distribución conjunta:

$$ p(y|\theta) = p(x,z| \theta) = p(z|x, \theta)p(x|\theta) $$

El objetivo de este problema sigue siendo el mismo, queremos maximizar la log-verosimilitud (incompleta), $p(X|\theta)$ y obsérvese que por la Ley de Probabilidad Total (y sin pérdida de generalidad, suponiendo que $Z$ discreto):

$$ p(X|\theta) = \sum_{z} p(X,Z|\theta) = \sum_{z} p(X|Z, \theta) p(Z|\theta). $$

Ahora bien, maximizar esta distribución es difícil (ya no es un problema de optimización convexo), sin embargo, resulta que la optimización de $p(X,Z|\theta)$ es mucho más fácil.

Ahora, introducimos una distribución, $q(Z)$ sobre las variables latentes. Para cualquier distribución $q$ debe cumplirse la siguiente descomposición:

$$ \log p(X|\theta) = \mathcal{L}(q, \theta) + \text{KL}(q||p) $$

donde $$ \mathcal{L}(q, \theta) = \sum_{z} q(Z) \log \frac{p(X,Z|\theta)}{q(Z)}, \qquad \text{KL}(q || p) = - \sum_{z} q(Z) \log \frac{p(Z|X, \theta)}{q(Z)} $$

Ahora, usted debe saber que $\text{KL}(q || p) \ge 0$ con igualdad sólo cuando $p = q$ y por lo tanto debe ser el caso que:

$$ \mathcal{L}(q, \theta) \le \log p(X|\theta) $$

y $\mathcal{L}(q, \theta) = \log p(X|\theta)$ sólo si $\text{KL}(q || p) = 0$ Es decir $q(Z) = p(Z|X, \theta)$

por eso nos referimos a $\mathcal{L}$ como límite inferior. Así que la idea es algo simple, queremos maximizar algo que es difícil de maximizar, así que vamos a través de un proceso iterativo de dos pasos.

  1. E-Step: Toma el vector de parámetros actual, $\theta^t$ y mantenerlo fijo mientras se maximiza el límite inferior $\mathcal{L}(q, \theta^t)$ con respecto a $q$ ya que $\mathcal{L}(q, \theta) = \log p(X|\theta^t) - \text{KL(q||p)}$ el primer término no implica $q$ por lo que maximizar $\mathcal{L}$ es idéntico a minimizar el término KL negativo, es decir, fijando $q=p$ .

  2. Paso M: mantener $q$ fijo, y maximizar $\mathcal{L}$ con respecto a $\theta$ . Ahora, a menos que el límite inferior ya esté en su máximo, esto debe provocar un aumento del límite inferior, que por definición debe causar $\log p(X|\theta^{t+1})$ también aumente. Tenga en cuenta que aquí, $q$ se basa en los antiguos parámetros $\theta$ y así $q(Z) \neq p(Z|X,\theta^{t+1})$ por lo que el término KL no es cero y, por tanto, el aumento del límite inferior es menor que el aumento de $\log p(X|\theta)$ .

Para ver la conexión entre esta formulación del algoritmo EM y la función auxiliar (Q) que tienes, observa que al final del paso E, tenemos que $q(Z) = p(Z|X, \theta^t)$ y así:

\begin{align*} \mathcal{L}(q, \theta^{t+1}) &= \sum_{z} p(Z|X, \theta^t) \log \frac{p(X,Z| \theta^{t+1})}{p(Z|X, \theta^t)} \\ &= \sum_{z} p(Z|X, \theta^t) \log p(X,Z| \theta^{t+1}) - \sum_{z} p(Z|X, \theta^t) \log p(Z|X, \theta^t)\\ &= \sum_{z} p(Z|X, \theta^t) \log p(X,Z| \theta^{t+1}) + \text{const}(\theta^{t+1})\\ &= Q(\theta^{t+1}, \theta^t) + \text{const}(\theta^{t+1}) \end{align*}

donde la última expresión se debe a que el segundo término es una constante con respecto a $\theta^{t+1}$ por lo que no desempeña ningún papel en la maximización llevada a cabo en la $M$ paso. Así que en el paso M cuando maximizamos el límite inferior, manteniendo $q$ fijada a la posterior $p(Z|X, \theta^{t})$ en realidad sólo estamos maximizando la expectativa de la logverosimilitud "completa", es decir $Q(\cdot, \cdot)$ .

En resumen, necesitamos $Q$ sea de esta forma, ya que ésta es la forma de la descomposición de lo que intentamos maximizar: $\log p(X| \theta)$ .

Referencia: Capítulo 9: PRML - Obispo

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X