31 votos

Una adaptación de la de Kullback-Leibler distancia?

Mira esta foto: enter image description here

Si extraemos una muestra de la red de la densidad, a continuación, algunos se espera que los valores de menos de 0,25, mientras que es imposible generar una muestra de que el azul de distribución. Como consecuencia, la de Kullback-Leibler distancia de la red de la densidad para el azul de la densidad es infinita. Sin embargo, las dos curvas no son tan distintos, en algunos "sentido natural".

Aquí está mi pregunta: ¿existe una adaptación de la de Kullback-Leibler distancia que permitiría a un número finito de distancia entre estas dos curvas?

Gracias! Marco

21voto

David Pearce Puntos 2242

El Kullback-Leibler divergencia $\kappa(P|P)$ de $P$, con respecto a $Q$ es infinita cuando $P$ no es absolutamente continua con respecto a $Q$, es decir, cuando existe un apreciable conjunto $A$ que $P(A)=0$ y $P(a)\ne0$. Además, la divergencia KL no es simétrica, en el sentido de que, en general, $\kappa(P\mid Q)\ne\kappa(Q\mid P)$. Recordemos que $$ \kappa(P\mid Q)=\int P\log\left(\frac{P}{Q}\right). $$ Una manera de salir de estos dos inconvenientes, todavía se basa en KL divergencia, es introducir el punto medio $$R=\tfrac12(P+Q). $$ Mus $R$ es una medida de probabilidad, y $P$ y $Q$ son siempre y absolutamente continua con respecto a $R$. Por lo tanto se puede considerar una "distancia" entre $P$ y $Q$, todavía basada en la divergencia KL pero usando $R$, que se define como $$ \eta(P,Q)=\kappa(P\mid R)+\kappa(Q\mediados de R). $$ Entonces $\eta(P,Q)$ es no negativa y finito para cada $P$ y $Q$, $\eta$ es simétrica en el sentido de que $\eta(P,Q)=\eta(Q,P)$ para todo $P$ y $Q$ y $\eta(P,Q)=0$ ffi $P=Q$.

Una formulación equivalente es $$ \eta(P,Q)=2\log(2)+\int \left(P\log(P)+Q\log(P)-(P+Q)\log(P+Q)\right). $$

En el apéndice 1 de La introducción del punto medio de $P$ y $Q$ no es arbitraria en el sentido de que $$ \eta(P,Q)=\min [\kappa(P\mid \cdot)+\kappa(Q\mid \cdot)], $$ que el mínimo del conjunto de medidas de probabilidad.

Anexo 2 @cardenal observaciones que $\eta$ también $f$-divergencia, por la parte convexa de la función $$ f(x)=x\log(x)−(1+x)\log(1+x)+(1+x)\log(2). $$

21voto

giulio Puntos 166

Usted puede mirar en el Capítulo 3 de Devroye, Gyorfi, y Lugosi, Un Probabilística de la Teoría de Reconocimiento de patrones, Springer, 1996. Véase, en particular, el apartado de $f$-divergencias.

$f$-Divergencias puede ser visto como una generalización de Kullback--Leibler (o, alternativamente, KL puede ser visto como un caso especial de un $f$-Divergencia).

La forma general es $$ D_f(p, q) = \int p(x) f\left(\frac{p(x)}{q(x)}\right) \, \lambda(dx) , $$

donde $\lambda$ es una medida que domina las medidas asociadas con $p$ y $q$ y $f(\cdot)$ es una función convexa de satisfacciones $f(1) = 0$. (Si $p(x)$ y $q(x)$ son densidades con respecto a la medida de Lebesgue, basta con sustituir la notación $dx$ $\lambda(dx)$ y ya está bueno para ir.)

Queremos recuperar KL tomando $f(x) = x \log x$. Podemos obtener la Hellinger diferencia por $f(x) = (1 - \sqrt{x})^2$ y obtenemos el total de la variación o $L_1$ distancia tomando $f(x) = \frac{1}{2} |x - 1|$. El último da

$$ D_{\mathrm{TV}}(p, q) = \frac{1}{2} \int |p(x) - q(x)| \, dx $$

Tenga en cuenta que esta última, al menos te da un número finito de respuesta.

En otro pequeño libro titulado Estimación de Densidad de: $L_1$ Ver, Devroye sostiene firmemente por el uso de esta última distancia debido a sus excelentes propiedades de invariancia (entre otros). Este último libro es, probablemente, un poco más difícil de conseguir que la anterior y, como sugiere el título, un poco más especializado.


Anexo: a Través de esta pregunta, me di cuenta de que parece que la medida que @Didier propone es (hasta un constante), conocida como la de Jensen-Shannon Divergencia. Si sigues el enlace a la respuesta de esa pregunta, verás que resulta que la raíz cuadrada de esta cantidad es en realidad una métrica y fue reconocida previamente en la literatura para ser un caso especial de un $f$-divergencia. Me pareció interesante que nos parecen colectivamente han "reinventado" la rueda (con bastante rapidez) a través de la discusión de esta cuestión. La interpretación que yo le había dado en el comentario de abajo @Didier respuesta también fue reconocido previamente. Todo, bueno, en realidad.

10voto

jldugger Puntos 7490

La prueba de Kolmogorov distancia entre dos distribuciones de $P$ y $Q$ es el sup norma de sus Cdf. (Esta es la más grande de la vertical de la discrepancia entre los dos gráficos de la Cdf.) Se utiliza en la distribución de la evaluación, donde $P$ es una hipótesis de distribución y $Q$ es la función de distribución empírica de un conjunto de datos.

Es difícil caracterizar esto como una "adaptación" de la KL distancia, pero no cumple con los demás requisitos de ser "natural" y finito.

Por cierto, debido a la divergencia KL no es un verdadero "distancia" no tiene que preocuparse acerca de la conservación de todas las propiedades axiomáticas de una distancia. Podemos mantener la no-negatividad de la propiedad, mientras que los valores finitos de la aplicación de cualquier transformación monotónica de $\mathbb{R_+} \[0,C]$ para algunos finito valor $C$. La inversa de la tangente va a hacer bien, por ejemplo.

2voto

patfla Puntos 1

Sí no, Bernardo y Reuda define algo que se llama la "intrínseca discrepancia", que para todos los efectos es un "symmetrised" la versión de la KL-divergencia. Tomando la divergencia KL de $P$ $P$ $\kappa(P \mid Q)$ intrínseca de La discrepancia está dada por:

$$\delta(P,Q)\equiv \min \big[\kappa(P \mid Q),\kappa(Q \mid P)\big]$$

La búsqueda intrínseca de la discrepancia (o bayesiano de referencia de criterio) le dará algunos artículos sobre esta medida.

En su caso, usted acaba de tomar el KL-divergencia que es finito.

Otra medida alternativa a KL es la distancia de Hellinger

EDIT: aclaración, algunas de las observaciones planteadas sugirió que el valor intrínseco de la discrepancia no será finito cuando una densidad de 0, cuando el otro no está. Esto no es cierto si la operación de la evaluación de la densidad zero se lleva a cabo como un límite de $Q\rightarrow 0$ o $P\rightarrow 0$ . El límite está bien definido, y es igual a $0$ para uno de los KL divergencias, mientras que el otro va a divergir. Para ver esta nota:

$$\delta(P,Q)\equiv \min \Big[\int P \,\log \big(\frac{P}{Q}\big),\int P \log \big(\frac{Q}{P}\big)\Big]$$

Tomando como límite de $P\rightarrow 0$ más de una región de la integral, la segunda integral diverge, y la primera integral converge a $0$ sobre esta región (suponiendo que las condiciones son tales que uno puede intercambiar y límites de integración). Esto es debido a que $\lim_{z\rightarrow 0} z \log(z) =0$. Debido a la simetría en $P$ y $Q$ el resultado también es válido para $P$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X