Me pregunto cuál es la diferencia entre la divergencia KL y el simple hecho de restar una medida de entropía a otra. Puedo ver lo que la diferencia es matemáticamente ... pero estoy teniendo un tiempo difícil de entender lo que significa. En todo esto estoy pensando en las medidas de entropía del texto en inglés, pero no estoy seguro de que eso importe.
Considere que tiene dos modelos para alguna variable aleatoria X, p (el modelo bueno), y q (el modelo menos bueno).
Si calculamos la entropía $$H(X) = -\sum_{x\in\mathcal{X}} p(x) \log(p(x)) = let's\,say\,2\,bits\,per\,character$$ y $$H(X) = -\sum_{x\in\mathcal{X}} q(x) \log(q(x)) = 3\,bits\,per\,character$$ podemos obtener una medida de diferencia simplemente restando:
$$H_{diff}(p(x),q(x)) = -\sum_{x\in\mathcal{X}} q(x) \log(q(x)) - -\sum_{x\in\mathcal{X}} p(x) \log(p(x)) = 1\,bit\,per\,character$$
simplificado un poco para ser análogo en la forma a una declaración común de la Divergencia KL... $$H_{diff}(p(x),q(x)) = \sum_{x\in\mathcal{X}} p(x)\log(p(x)) - q(x)\log(q(x)) = 1\,bit\,per\,character$$
Vale, eso tiene una especie de sentido intuitivo. Si tenemos 1000 caracteres entonces en promedio para el modelo q veremos 3000 bits, mientras que en promedio para el modelo p veremos 2000 bits. ¿Entendido, creo?
Pero también podemos utilizar la divergencia KL, que es muy similar:
$$D_\text{KL}(p \parallel q) = \sum_{x\in\mathcal{X}} p(x) \log\left(\frac{p(x)}{q(x)}\right)$$
Reacomodar un poco...
$$D_\text{KL}(p \parallel q) = \sum_{x\in\mathcal{X}} p(x)\log(p(x)) - p(x)\log(q(x)) $$
Así que, en realidad, la única diferencia entre tomar simplemente la diferencia de los dos cálculos de entropía y la divergencia KL es p(x) frente a q(x) en el segundo término del lado derecho, que es la entropía cruzada en el caso de la divergencia KL y la vieja entropía normal en mi primer ejemplo.
Llevo un rato pensando en ello y no se me ocurre una respuesta. ¿Cuál es, intuitivamente, la diferencia entre estas dos medidas de distancia?