12 votos

Puede KL-Divergencia debe ser nunca mayor que 1?

He estado trabajando en la construcción de algunas pruebas estadísticas basadas en el KL-Divergencia,

\begin{equation} D_{KL}(p \| q) = \sum_i p(i) \log\left(\frac{p(i)}{q(i)}\right), \end{equation}

Y terminé con un valor de $1.9$ para mi distribuciones. Tenga en cuenta que las distribuciones tienen el apoyo de $140$niveles de K, por lo que no creo trazando fuera de toda distribuciones sería razonable aquí.

Lo que me pregunto es, ¿es posible tener un KL-Divergencia mayor que 1? Muchas de las interpretaciones que he visto de KL-Divergencia se basa en un límite superior de 1. Si se puede ir mayor que 1, lo que es la interpretación de KL-Divergencia más allá de 1?

Edit: sé que es una mala elección de referencia, pero el artículo de la Wikipedia sobre la Divergencia KL sugiere que "una de Kullback–Leibler divergencia de 1 indica que las dos distribuciones se comportan de una manera diferente que la expectativa de recibir la primera distribución se aproxima a cero." Yo había pensado que estaba implícito que esto significaba que el KL-Divergencia fue acotada arriba por 1, pero es evidente que esto es un error en el artículo.

24voto

Lev Puntos 2212

El Kullback-Leibler divergencia es ilimitado. De hecho, ya que no hay límite inferior en el $q(i)$'s, no hay ningún límite superior en el $p(i)/q(i)$'s. Por ejemplo, el de Kullback-Leibler divergencia entre Normal $N(\mu_1,\sigma_1^2)$ y $N(\mu_2,\sigma_1^2)$ es $$\frac{1}{2\sigma_1^{2}}(\mu_1-\mu_2)^2$$, que es claramente acotada.

Wikipedia [que ha sido conocido por ser mal!] de hecho, los estados

"...una de Kullback–Leibler divergencia de 1 indica que los dos las distribuciones se comportan de una manera diferente que la expectativa dada la primera distribución se aproxima a cero."

que no tiene ningún sentido (expectativa de que la función? por qué 1 y no 2?)

Una más satisfactoria explicación de la misma Wikipedia página es que los de Kullback–Leibler

"...puede ser interpretado como una forma de medir el número esperado de bits adicionales es necesario codificar las muestras de P utilizando un código optimizado para Q lugar que el código optimizado para P."

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X