Además de la algebraicas razón por la que Robert Israel dio, hay una muy buena "razón moral" que la de Kullback-Leibler divergencia no es simétrica. A grandes rasgos, es porque tienes que pensar en los dos argumentos de la divergencia KL como los distintos tipos de cosas: el primer argumento es empírica de los datos, y el segundo argumento es un modelo de comparar los datos. He aquí cómo funciona.
Tomar un montón de variables aleatorias independientes $X_1, \ldots, X_n$ cuyos posibles valores se encuentran en un conjunto finito.* Dicen que estas variables son idénticamente distribuidas, con $\operatorname{Pr}(X_i = x) = p_x$. Deje $F_{n,x}$ el número de variables cuyos valores son iguales a $x$. La lista de $F_n$ es una variable aleatoria, a menudo llamado el "empírico de la distribución de frecuencia" de la $X_i$. ¿Qué $F_n$ parecerse al $n$ es muy grande?
Más concretamente, vamos a tratar de estimar las probabilidades de los posibles valores de $F_n$. Desde el conjunto de posibles valores es diferente para los diferentes $n$, tomar una secuencia de distribuciones de frecuencias $f_1, f_2, f_3, \ldots$ acercarse a una frecuencia fija de distribución de $f$. Resulta que** que
$$\lim_{n \to \infty} \tfrac{1}{n} \ln \operatorname{Pr}(F_n = f_n) = -\operatorname{KL}(f, p).$$
En otras palabras, la Kullback-Leibler divergencia de $f$ $p$ le permite estimar que la probabilidad de obtener un empírica de la distribución de frecuencia cerca de $f$ a partir de un gran número de variables aleatorias independientes con distribución $p$.
Usted puede encontrar todo lo que acabo de decir, y más, en el excelente artículo "la Teoría de la Información, en Relación de la Entropía y de la Estadística," por François Bavaud.
* También se puede hacer esto de manera más general, pero no sé nada acerca de eso.
** Usando la aproximación de Stirling, $\ln k! \in k\ln k - k + O(\ln k)$.