2 votos

¿Cuál es la diferencia entre la divergencia KL y la mera sustracción de las medidas de entropía?

Me pregunto cuál es la diferencia entre la divergencia KL y el simple hecho de restar una medida de entropía a otra. Puedo ver lo que la diferencia es matemáticamente ... pero estoy teniendo un tiempo difícil de entender lo que significa. En todo esto estoy pensando en las medidas de entropía del texto en inglés, pero no estoy seguro de que eso importe.

Considere que tiene dos modelos para alguna variable aleatoria X, p (el modelo bueno), y q (el modelo menos bueno).

Si calculamos la entropía $$H(X) = -\sum_{x\in\mathcal{X}} p(x) \log(p(x)) = let's\,say\,2\,bits\,per\,character$$ y $$H(X) = -\sum_{x\in\mathcal{X}} q(x) \log(q(x)) = 3\,bits\,per\,character$$ podemos obtener una medida de diferencia simplemente restando:

$$H_{diff}(p(x),q(x)) = -\sum_{x\in\mathcal{X}} q(x) \log(q(x)) - -\sum_{x\in\mathcal{X}} p(x) \log(p(x)) = 1\,bit\,per\,character$$

simplificado un poco para ser análogo en la forma a una declaración común de la Divergencia KL... $$H_{diff}(p(x),q(x)) = \sum_{x\in\mathcal{X}} p(x)\log(p(x)) - q(x)\log(q(x)) = 1\,bit\,per\,character$$

Vale, eso tiene una especie de sentido intuitivo. Si tenemos 1000 caracteres entonces en promedio para el modelo q veremos 3000 bits, mientras que en promedio para el modelo p veremos 2000 bits. ¿Entendido, creo?

Pero también podemos utilizar la divergencia KL, que es muy similar:

$$D_\text{KL}(p \parallel q) = \sum_{x\in\mathcal{X}} p(x) \log\left(\frac{p(x)}{q(x)}\right)$$

Reacomodar un poco...

$$D_\text{KL}(p \parallel q) = \sum_{x\in\mathcal{X}} p(x)\log(p(x)) - p(x)\log(q(x)) $$

Así que, en realidad, la única diferencia entre tomar simplemente la diferencia de los dos cálculos de entropía y la divergencia KL es p(x) frente a q(x) en el segundo término del lado derecho, que es la entropía cruzada en el caso de la divergencia KL y la vieja entropía normal en mi primer ejemplo.

Llevo un rato pensando en ello y no se me ocurre una respuesta. ¿Cuál es, intuitivamente, la diferencia entre estas dos medidas de distancia?

1voto

zpea Puntos 121

Además de la evidente diferencia señalada en los comentarios por @Joe:

Creo que la diferencia clave es que la divergencia KL representa la diferencia relativa entre dos medidas de probabilidad (recordemos que la propiedad de continuidad absoluta ( $p \ll q$ ) es necesaria para que la divergencia KL sea finita), mientras que la diferencia que mencionas es sólo una diferencia entre entropías de dos espacios de probabilidad completamente diferentes, que no da ninguna pista sobre cuánto se acercan las distribuciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X