Probabilidad = $L(\textbf{w}) = P(V\mid \textbf{w})$ .
$$\ln P(V\mid \textbf{w}) = \ln \sum_H P(H,V\mid \textbf{w})$$ $$= \ln \sum_H Q(H\mid V)\frac{P(H,V\mid \textbf{w})}{Q(H\mid V)}$$ $$\geq \ell(Q,\textbf{w}) = \sum_H Q(H,V)\ln\frac{P(H,V\mid \textbf{w})}{Q(H\mid V)},$$ por la desigualdad de Jensen.
Hasta aquí todo bien. Lo que no veo es que la diferencia entre el verdadero logaritmo de verosimilitud $\ln P(V\mid \textbf{w})$ y $\ell(Q,\textbf{w})$ es la divergencia KL: $$KL(Q\|P) = -\sum_H Q(H\mid V)\frac{\ln P(H\mid V,\textbf{w})}{Q(H\mid V)} .$$
En otras palabras, por qué lo hace: $\ln P(V\mid \textbf{w}) - \ell(Q,\textbf{w}) = KL(Q\|P).$
Referencia: este archivo PDF. (página 2, ecuaciones 3-5)