Otro documento relacionado con la pregunta:
http://arxiv.org/pdf/1403.7164v4.pdf
Primera observación que podemos ofrecer es la relación entre dos distancias: la variación total de la distancia y de KL-divergencia. Esto se da por Pinkser la desigualdad:
$$
\frac{1}{2}\sum_{x\in\mathcal{X}} |P(x)-Q(x)|\leq \sqrt{\frac 12 D(P||Q)}.
$$
Sin embargo KL-divergencia aparece en algunos otros contextos también. Supongamos que $X$ $Y$ son dos variables aleatorias definidas sobre el mismo conjunto $\mathcal{X}$. A continuación, considere la siguiente probabilidad:
$$
\Pr(X = Y)=\sum_{x,y\in \mathcal{X}}P(x)Q(y)\mathbf{1}(x=y)=\sum_{x\in \mathcal{X}}P(X)Q(X)
$$
Podemos simplificar aún más el anterior:
$$
\sum_{x\in \mathcal{X}}P(X)Q(X)=\mathbb{E}(Q(X))=\mathbb{E} e^{\log Q(X)}) \geq e^{\mathbb{E}(\log Q(X))}
$$
Y por último:
$$
\mathbb{E}(\log Q(X))=\mathbb{E}(\log \frac {P(X)}{P(X)}+\log P(X))=-H(X)-D(P||Q).
$$
Por lo tanto tenemos:
$$
\Pr(X = Y)\geq e^{-H(X)-D(P||Q)}
$$
donde:
$$
D(P||Q)=\sum_{x\in\mathcal{X}}P(x)\log\frac{P(x)}{Q(x)}.
$$
Podemos ver que KL-divergencia, naturalmente, aparece aquí. Parece que en otros lugares también, Por ejemplo, en gran desviación de la teoría. Considere la posibilidad de una secuencia de yo.yo.d. Las variables aleatorias de Bernoulli $X_1,...,X_n$ con el parámetro $p$. Sabemos por la ley de los grandes números que para $S_n=X_1+...+X_n$, $\frac{S_n}n$ será una.e. $p$ $n\to\infty$ . Ahora, ¿cuál es la probabilidad de que $\frac{S_n}n$ se desvía de $p$ $\epsilon$ (por supuesto, para no trivial de la elección de $\epsilon$)? De gran desviación de la teoría, sabemos que:
$$
\Pr(\frac{S_n}n \geq (p+\epsilon))\aprox e^{-nD(p+\epsilon||p)}
$$
donde $D(p+\epsilon||p)$ es KL-divergencia entre dos de Bernoulli con los parámetros de $p+\epsilon$$p$.
Para resumir, KL-divergencia parece muy atractivo debido a sus recurrentes apariciones, pero no hay ningún "preferencias personales" en matemáticas. Todo depende del problema que se esté trabajando y del contexto.