El Kullback-Leibler Divergencia se define como $$K(f:g) = \int \left(\log \frac{f(x)}{g(x)} \right) \ dF(x)$$
Mide la distancia entre dos distribuciones $f$$g$. ¿Por qué este ser mejor que la distancia Euclidiana en algunas situaciones?
El Kullback-Leibler Divergencia se define como $$K(f:g) = \int \left(\log \frac{f(x)}{g(x)} \right) \ dF(x)$$
Mide la distancia entre dos distribuciones $f$$g$. ¿Por qué este ser mejor que la distancia Euclidiana en algunas situaciones?
La respuesta corta es que la divergencia KL tiene un probabilísticos y estadísticos significado (y un montón de ellos, en realidad), mientras que la distancia Euclídea no tiene. Por ejemplo, una diferencia $f(x)-g(x)$ tiene un significado completamente diferente dependiendo de los tamaños absolutos de $f(x)$$g(x)$.
El WP página sobre el tema que es una lectura obligada, naturalmente. Permítanme explicar sólo una interpretación de la divergencia KL. Suponga que un azar que yo.yo.d. ejemplo de $\mathfrak X=(x_k)_{1\leqslant k\leqslant n}$ sigue la distribución de $f$ y un aleatorias i.yo.d. ejemplo de $\mathfrak Y=(y_k)_{1\leqslant k\leqslant n}$ sigue la distribución de $g$. Una manera de distinguir a $\mathfrak X$ $\mathfrak Y$ es preguntar por la probabilidad de que $\mathfrak Y$ se comporta como $\mathfrak X$, es decir, que $\mathfrak Y$ se comporta como un típico ejemplo de $f$.
Más precisamente, se quiere estimar cómo improbable $\mathfrak Y$ se hace cuando uno se pregunta, en que $\mathfrak Y$ se comporta como un $f$ de la muestra, en comparación con su ordinaria de la probabilidad como un $g$ de la muestra.
El cálculo es bastante simple y se basa en los siguientes. Suponga $N(x,x+\mathrm dx)$ de los valores de la muestra que caen en cada intervalo de $(x,x+\mathrm dx)$. Entonces, la probabilidad de escamas como $$ \prod g(x)^{N(x,x+\mathrm dx)}=\exp\left(\sum N(x,x+\mathrm dx)\log g(x)\right). $$ Para un típico $f$ de la muestra, $N(x,x+\mathrm dx)\approx nf(x)\mathrm dx$ al $n\to\infty$, para cada $x$, por lo tanto la probabilidad de $\mathfrak Y$ enmascarado como un $f$ ejemplos de escalas como $$ \ell_n(f\mid f)\approx\exp\left(n\int f(x)\log g(x)\mathrm dx\right). $$ Por otro lado, para un típico $g$ de la muestra, $N(x,x+\mathrm dx)\approx ng(x)\mathrm dx$ al $n\to\infty$, para cada $x$, por lo tanto la probabilidad de $\mathfrak Y$ comportándose como un típico $g$ ejemplos de escalas como $$ \ell_n(g\mid f)\approx\exp\left(n\int g(x)\log g(x)\mathrm dx\right). $$ Por lo tanto $\ell_n(f\mid g)\ll\ell_n(g\mid g)$, como era de esperar, y la relación de $\dfrac{\ell_n(f\mid g)}{\ell_n(g\mid g)}$ disminuye exponencialmente rápido al $n\to\infty$, aproximadamente como $\mathrm e^{-nH}$, donde $$ H=\int f(x)\log f(x)\mathrm dx-\int f(x)\log g(x)\mathrm dx=K(f\mid f). $$
Pinsker la desigualdad. De Kullback-Leibler divergencia puede ser considerado mejor en el siguiente sentido.
Para las dos medidas de probabilidad $P$$Q$, Pinsker de la desigualdad de los estados que $$ |P-Q|\le [2 KL(P\|Q)]^{\frac{!}{2}},$$ where l.h.s. is the total variation metric (corresponds to $\ell_1$-norma). Así que la convergencia en KL-divergencia sentido es más fuerte que la convergencia en la variación total. Pero la motivación viene de la teoría de la información como Jeff señaló.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.