El libro de texto Elementos de la teoría de la información nos da un ejemplo:
Por ejemplo, si conociéramos la verdadera distribución p del azar variable aleatoria, podríamos construir un código con una longitud de descripción media H(p). Si, en cambio, utilizamos el código de una distribución q, necesitaríamos necesitaríamos H(p) + D(p||q) bits de media para describir la variable aleatoria variable aleatoria.
Parafraseando la afirmación anterior, podemos decir que si cambiamos la distribución de la información (de q a p) necesitamos D(p||q) bits extra de media para codificar la nueva distribución.
Una ilustración
Permítanme ilustrar esto utilizando una aplicación de la misma en el procesamiento del lenguaje natural.
Considere que un gran grupo de personas, etiquetado como B, son mediadores y a cada uno de ellos se le asigna la tarea de elegir un sustantivo de turkey
, animal
y book
y transmitirlo a C. Hay un tipo llamado A que puede enviar a cada uno de ellos un correo electrónico para darles algunas pistas. Si nadie del grupo ha recibido el correo electrónico, es posible que levanten las cejas y duden durante un rato sobre lo que necesita C. Y la probabilidad de que cada opción sea elegida es de 1/3. En principio, la distribución es uniforme (si no es así, puede estar relacionada con sus propias preferencias y simplemente ignoramos estos casos).
Pero si se les da un verbo, como baste
3/4 de ellos pueden elegir turkey
y 3/16 elegir animal
y 1/16 elija book
. Entonces, ¿cuánta información en bits ha obtenido de media cada uno de los mediadores una vez que conocen el verbo? Así es:
\begin{align*} D(p(nouns|baste)||p(nouns)) &= \sum_{x\in\{turkey, animal, book\}} p(x|baste) \log_2 \frac{p(x|baste)}{p(x)} \\ &= \frac{3}{4} * \log_2 \frac{\frac{3}{4}}{\frac{1}{3}} + \frac{3}{16} * \log_2\frac{\frac{3}{16}}{\frac{1}{3}} + \frac{1}{16} * \log_2\frac{\frac{1}{16}}{\frac{1}{3}}\\ &= 0.5709 \space \space bits\\ \end{align*}
Pero ¿qué pasa si el verbo dado es read
? Podemos imaginar que todos ellos elegirían book
sin vacilación, entonces la ganancia media de información para cada mediador del verbo read
es:
\begin{align*} D(p(nouns|read)||p(nouns)) &= \sum_{x\in\{book\}} p(x|read) \log_2 \frac{p(x|read)}{p(x)} \\ &= 1 * \log_2 \frac{1}{\frac{1}{3}} \\ & =1.5849 \space \space bits \\ \end{align*} Podemos ver que el verbo read
puede dar a los mediadores más información. Y eso es lo que la entropía relativa puede medir.
Continuemos nuestra historia. Si C sospecha que el sustantivo puede ser erróneo porque A le ha dicho que podría haberse equivocado al enviar el verbo equivocado a los mediadores. Entonces, ¿cuánta información en bits puede dar a C esa mala noticia?
1) si el verbo dado por A era baste
:
\begin{align*} D(p(nouns)||p(nouns|baste)) &= \sum_{x\in\{turkey, animal, book\}} p(x) \log_2 \frac{p(x)}{p(x|baste)} \\ &= \frac{1}{3} * \log_2 \frac{\frac{1}{3}}{\frac{3}{4}} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{\frac{3}{16}} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{\frac{1}{16}}\\ &= 0.69172 \space \space bits\\ \end{align*}
2) pero ¿qué pasaría si el verbo fuera read
? \begin{align*} D(p(nouns)||p(nouns|baste)) &= \sum_{x\in\{book, *, *\}} p(x) \log_2 \frac{p(x)}{p(x|baste)} \\ &= \frac{1}{3} * \log_2 \frac{\frac{1}{3}}{1} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{0} + \frac{1}{3} * \log_2\frac{\frac{1}{3}}{0}\\ &= \infty \space \space bits\\ \end{align*}
Como C nunca se sabe cuáles serían los otros dos sustantivos y cualquier palabra del vocabulario sería posible.
Podemos ver que la divergencia KL es asimétrica.
Espero estar en lo cierto, y si no es así por favor comenten y ayuden a corregirme. Gracias de antemano.