¿Por qué la divergencia KL no es negativa?
Desde la perspectiva de la teoría de la información, tengo una comprensión intuitiva:
Digamos que hay dos conjuntos AA y BB que se componen del mismo conjunto de elementos etiquetados por xx . p(x)p(x) y q(x)q(x) son diferentes distribuciones de probabilidad sobre el conjunto AA y BB respectivamente.
Desde la perspectiva de la teoría de la información, log2(P(x))log2(P(x)) es la menor cantidad de bits que se requiere para registrar un elemento xx para el conjunto AA . Para que la expectativa ∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln(p(x)) puede interpretarse como el número de bits que necesitamos para registrar un elemento en AA de media.
Como esta fórmula pone un límite inferior a los bits que necesitamos en promedio, de modo que para un conjunto diferente BB lo que conlleva una distribución de probabilidad diferente q(x)q(x) el límite que da para cada elemento xx seguramente no morderá que es dado por p(x)p(x) lo que significa tomar la expectativa,
∑x∈ensemble−p(x)ln(q(x))∑x∈ensemble−p(x)ln(q(x)) esta longitud media será seguramente mayor que la anterior, lo que lleva a
∑x∈ensemblep(x)ln(p(x))ln(q(x))>0∑x∈ensemblep(x)ln(p(x))ln(q(x))>0 No pongo ≥≥ aquí desde p(x)p(x) y q(x)q(x) son diferentes.
Este es mi entendimiento intuitivo, ¿hay una forma puramente matemática de demostrar que la divergencia KL es no negativa? El problema se puede plantear como:
Dado p(x)p(x) y q(x)q(x) son ambos positivos sobre la línea real, y ∫+∞−∞p(x)dx=1∫+∞−∞p(x)dx=1 , ∫+∞−∞q(x)dx=1∫+∞−∞q(x)dx=1 . Prueba ∫+∞−∞p(x)lnp(x)q(x)∫+∞−∞p(x)lnp(x)q(x) es no negativo.
¿Cómo se puede demostrar esto? ¿O se puede demostrar sin condiciones adicionales?