49 votos

¿Por qué la divergencia KL no es negativa?

¿Por qué la divergencia KL no es negativa?

Desde la perspectiva de la teoría de la información, tengo una comprensión intuitiva:

Digamos que hay dos conjuntos AA y BB que se componen del mismo conjunto de elementos etiquetados por xx . p(x)p(x) y q(x)q(x) son diferentes distribuciones de probabilidad sobre el conjunto AA y BB respectivamente.

Desde la perspectiva de la teoría de la información, log2(P(x))log2(P(x)) es la menor cantidad de bits que se requiere para registrar un elemento xx para el conjunto AA . Para que la expectativa xensemblep(x)ln(p(x))xensemblep(x)ln(p(x)) puede interpretarse como el número de bits que necesitamos para registrar un elemento en AA de media.

Como esta fórmula pone un límite inferior a los bits que necesitamos en promedio, de modo que para un conjunto diferente BB lo que conlleva una distribución de probabilidad diferente q(x)q(x) el límite que da para cada elemento xx seguramente no morderá que es dado por p(x)p(x) lo que significa tomar la expectativa,
xensemblep(x)ln(q(x))xensemblep(x)ln(q(x)) esta longitud media será seguramente mayor que la anterior, lo que lleva a
xensemblep(x)ln(p(x))ln(q(x))>0xensemblep(x)ln(p(x))ln(q(x))>0 No pongo aquí desde p(x)p(x) y q(x)q(x) son diferentes.

Este es mi entendimiento intuitivo, ¿hay una forma puramente matemática de demostrar que la divergencia KL es no negativa? El problema se puede plantear como:

Dado p(x)p(x) y q(x)q(x) son ambos positivos sobre la línea real, y +p(x)dx=1+p(x)dx=1 , +q(x)dx=1+q(x)dx=1 . Prueba +p(x)lnp(x)q(x)+p(x)lnp(x)q(x) es no negativo.

¿Cómo se puede demostrar esto? ¿O se puede demostrar sin condiciones adicionales?

77voto

haloux Puntos 6

Prueba 1:

En primer lugar, hay que tener en cuenta que lnaa1lnaa1 para todos a>0a>0 .

Ahora demostraremos que DKL(p||q)0DKL(p||q)0 lo que significa que DKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

Para la desigualdad (a) utilizamos el ln la desigualdad explicada al principio.

También puede empezar con La desigualdad de Gibbs que establece: xp(x)log2p(x)xp(x)log2q(x)

Entonces si llevamos el término de la izquierda a la derecha obtenemos: xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

La razón por la que no incluyo esto como una prueba separada es porque si me pidieras que demostrara la desigualdad de Gibbs, tendría que partir de la no negatividad de la divergencia de KL y hacer la misma prueba desde el principio.


Prueba 2: Utilizamos el Desigualdad de la suma logarítmica : ni=1ailog2aibi(ni=1ai)log2ni=1aini=1bi

Entonces podemos demostrar que DKL(p||q)0 : D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

donde hemos utilizado la desigualdad de la suma logarítmica en (b).


Prueba 3:

(Tomado del libro "Elements of Information Theory" de Thomas M. Cover y Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

donde en (c) hemos utilizado La desigualdad de Jensen y el hecho de que log es una función cóncava.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X