1 votos

Métodos variacionales, por qué la divergencia KL es la diferencia entre la distribución verdadera y la distribución aproximada.

Probabilidad = $L(\textbf{w}) = P(V\mid \textbf{w})$ .

$$\ln P(V\mid \textbf{w}) = \ln \sum_H P(H,V\mid \textbf{w})$$ $$= \ln \sum_H Q(H\mid V)\frac{P(H,V\mid \textbf{w})}{Q(H\mid V)}$$ $$\geq \ell(Q,\textbf{w}) = \sum_H Q(H,V)\ln\frac{P(H,V\mid \textbf{w})}{Q(H\mid V)},$$ por la desigualdad de Jensen.

Hasta aquí todo bien. Lo que no veo es que la diferencia entre el verdadero logaritmo de verosimilitud $\ln P(V\mid \textbf{w})$ y $\ell(Q,\textbf{w})$ es la divergencia KL: $$KL(Q\|P) = -\sum_H Q(H\mid V)\frac{\ln P(H\mid V,\textbf{w})}{Q(H\mid V)} .$$

En otras palabras, por qué lo hace: $\ln P(V\mid \textbf{w}) - \ell(Q,\textbf{w}) = KL(Q\|P).$

Referencia: este archivo PDF. (página 2, ecuaciones 3-5)

2voto

palehorse Puntos 8268

Sabemos que $$P(H\mid V,\textbf{w})=\frac{P(H, V \mid\textbf{w})}{P(V \mid \textbf{w})}$$

Entonces

$$-{\rm KL}(Q\|P) = \sum_H Q(H\mid V)\ln\frac{ P(H\mid V,\textbf{w})}{Q(H\mid V)} =\\ =\sum_H Q(H\mid V)\left( \ln \frac{ P(H ,V\mid\textbf{w})}{Q(H\mid V)} - \ln P(V \mid \textbf{w}) \right)=\\ = \ell(Q,\textbf{w}) - \ln P(V \mid \textbf{w}) \sum_H Q(H\mid V) $$

Entonces necesitamos $ \sum_H Q(H\mid V)=1$ lo que es cierto si $Q(H\mid V)$ se supone que es la distribución de probabilidad para alguna variable $H$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X