¿Cuál es la diferencia entre la divergencia KL y la mera sustracción de las medidas de entropía?

Question

¿Cuál es la diferencia entre la divergencia KL y la mera sustracción de las medidas de entropía?

Preguntado el 26 de Octubre, 2021: Cuando se hizo la pregunta
65 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Me pregunto cuál es la diferencia entre la divergencia KL y el simple hecho de restar una medida de entropía a otra. Puedo ver lo que la diferencia es matemáticamente ... pero estoy teniendo un tiempo difícil de entender lo que significa. En todo esto estoy pensando en las medidas de entropía del texto en inglés, pero no estoy seguro de que eso importe.

Considere que tiene dos modelos para alguna variable aleatoria X, p (el modelo bueno), y q (el modelo menos bueno).

Si calculamos la entropía $$H(X) = -\sum_{x\in\mathcal{X}} p(x) \log(p(x)) = let's\,say\,2\,bits\,per\,character$$ y $$H(X) = -\sum_{x\in\mathcal{X}} q(x) \log(q(x)) = 3\,bits\,per\,character$$ podemos obtener una medida de diferencia simplemente restando:

$$H_{diff}(p(x),q(x)) = -\sum_{x\in\mathcal{X}} q(x) \log(q(x)) - -\sum_{x\in\mathcal{X}} p(x) \log(p(x)) = 1\,bit\,per\,character$$

simplificado un poco para ser análogo en la forma a una declaración común de la Divergencia KL... $$H_{diff}(p(x),q(x)) = \sum_{x\in\mathcal{X}} p(x)\log(p(x)) - q(x)\log(q(x)) = 1\,bit\,per\,character$$

Vale, eso tiene una especie de sentido intuitivo. Si tenemos 1000 caracteres entonces en promedio para el modelo q veremos 3000 bits, mientras que en promedio para el modelo p veremos 2000 bits. ¿Entendido, creo?

Pero también podemos utilizar la divergencia KL, que es muy similar:

$$D_\text{KL}(p \parallel q) = \sum_{x\in\mathcal{X}} p(x) \log\left(\frac{p(x)}{q(x)}\right)$$

Reacomodar un poco...

$$D_\text{KL}(p \parallel q) = \sum_{x\in\mathcal{X}} p(x)\log(p(x)) - p(x)\log(q(x)) $$

Así que, en realidad, la única diferencia entre tomar simplemente la diferencia de los dos cálculos de entropía y la divergencia KL es p(x) frente a q(x) en el segundo término del lado derecho, que es la entropía cruzada en el caso de la divergencia KL y la vieja entropía normal en mi primer ejemplo.

Llevo un rato pensando en ello y no se me ocurre una respuesta. ¿Cuál es, intuitivamente, la diferencia entre estas dos medidas de distancia?

Preguntado el 26 de Octubre, 2021 por JornaH342

Answer 1

1 Respuestas

Answer 2

1voto

zpea Puntos 121

Además de la evidente diferencia señalada en los comentarios por @Joe:

Creo que la diferencia clave es que la divergencia KL representa la diferencia relativa entre dos medidas de probabilidad (recordemos que la propiedad de continuidad absoluta ( $p \ll q$ ) es necesaria para que la divergencia KL sea finita), mientras que la diferencia que mencionas es sólo una diferencia entre entropías de dos espacios de probabilidad completamente diferentes, que no da ninguna pista sobre cuánto se acercan las distribuciones.

Respondido el 26 de Octubre, 2021 por zpea (121 Puntos )

¿Cuál es la diferencia entre la divergencia KL y la mera sustracción de las medidas de entropía?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuál es la diferencia entre la divergencia KL y la mera sustracción de las medidas de entropía?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: