5 votos

El resultado es la raíz cuadrada de un número complejo.

Es bien sabido que la raíz cuadrada de Jensen-Shannon divergencia es una verdadera métrica, pero ¿y la raíz cuadrada simétrica KL: D(P||Q)+D(P||P)? Tengo razones para creer que también es un verdadero métrico, pero no puede encontrar ninguna referencia en la que, aparte de los comentarios anecdóticos como que se comporta más como una métrica cuando se utiliza.

Actualización 1

De Kullback-Leibler divergencia: $D(P||Q) = \sum_i p_i\log(p_i/q_i)$

Jensen-Shannon divergencia: $J(P,Q) = \big(D(P||(P+Q)/2)+D(Q||(P+Q)/2)\big)/2$

Simétrica divergencia KL: $S(P,Q) = D(P||Q)+D(Q||P) = \sum_i (p_i-q_i)\log(p_i/q_i)$

Raíz cuadrada simétrica KL: $d_{KL}(P,Q) = \sqrt{S(P,Q)}$

Es $d_{KL}$ una métrica?

Actualización 2

Creo que los siguientes límites superior e inferior espera:

$\sum_i (p_i-q_i)^2 \leq \sum_i (p_i-q_i)\log(p_i/q_i) \leq \sum_i \log(p_i/q_i)^2$

Tanto de la raíz cuadrada de los límites son métricas, supongo, ya que son el cuadrado de la distancia Euclídea en la probabilidad del espacio y el registro prob espacio, respectivamente.

7voto

Gareth McCaughan Puntos 169

Uno de los casos del teorema 2.2 en este papel dice que si definimos (para números positivos , más que todo de las distribuciones de probabilidad) $S(p,q) = (p-q)\log(p/q)$ $\sqrt S$ es una métrica.

(No he mirado el papel lo suficientemente cerca para dar fe de su veracidad, pero en cualquier caso, no tiene usted más razón para confiar en mí, que la confianza de su autor :-).)

Si es así, entonces su simétrico divergencia KL es una métrica en las distribuciones de probabilidad, porque de la siguiente teorema: si usted tiene métrica espacios $(M_1,d_1)$, $(M_2,d_2)$, etc., entonces $(M_1 \times M_2 \times \cdots$, $\sqrt{d_1^2+d_2^2+\cdots}$ también es un espacio métrico; ver, por ejemplo, Wikipedia.

EDITADO en la luz de la ahora aceptada respuesta a añadir: Así que, claramente, no es cierto que $\sqrt S$ (como en mi primer párrafo de arriba) es una métrica. Y de hecho no lo es; específicamente (tomando el contraejemplo en esa respuesta como fuente de inspiración) tenemos tanto $S(0.1,0.2) + S(0.2,0.3) < S(0.1,0.3)$$S(0.9,0.8) + S(0.8,0.7) < S(0.9,0.7)$. A menos que yo estoy gravemente la incomprensión del papel he ligado, lo que significa que el teorema 2.2 es incorrecta. Este teorema es que se trate con una generalización de esta $S$, teniendo la $S$ estamos realmente interesados en aquí como un límite de algo más manejable, ya que parece ser falso para la más manejable cosa también, así que el problema está ahí, en lugar de en el paso al límite.

6voto

Ms. Nobody Puntos 113

No, la raíz cuadrada de la symmetrised KL divergencia no es una métrica. Un contraejemplo es la siguiente:

  • Deje $P$ ser una moneda que produce una cabeza de un 10% del tiempo.
  • Deje $Q$ ser una moneda que produce una cabeza 20% del tiempo.
  • Deje $R$ ser una moneda que produce una cabeza de un 30% del tiempo.
  • A continuación,$d(P, Q) + d(Q, R) = 0.284... + 0.232... < 0.519... = d(P, R)$.

Sin embargo, para $P$ $Q$ muy juntos, $D(P, Q)$ $J(P, Q)$ $S(P, Q)$ son esencialmente los mismos (que son proporcionales a la una de la otra $+ O((P-Q)^3)$) y su raíz cuadrada es una métrica (para el mismo fin). Podemos tomar este local de la métrica y de integrar a lo largo de todo el espacio de las distribuciones de probabilidad de obtener un indicador global. El resultado es:

$$A(P, Q) = \cos^{-1}\left(\sum_x \sqrt{P(x)Q(x)} \right)$$

He trabajado esto a mí, así que me temo que no sé cómo se llama. Voy a utilizar Una de Alistair, hasta que los encuentre. ;-)

Por construcción, el triángulo de la desigualdad en esta métrica es apretado. En realidad se puede encontrar un único camino más corto a través del espacio de las distribuciones de probabilidad de $P$ $Q$que tiene la longitud correcta. En ese sentido, es preferible el contrario similares Hellinger a distancia:

$$H(P, Q) = 1 - \sqrt{\sum_x \sqrt{P(x)*Q(x)} }$$

Actualización 2013-12-05: al Parecer este es el llamado Battacharrya arc cos de distancia.

4voto

jws121295 Puntos 36

Aquí es wolfram definición de métricas: http://mathworld.wolfram.com/Metric.html

Dicen que las propiedades de las métricas son:

  1. no negativo
  2. la simetría
  3. distancia de identidad (la distancia entre un punto y en sí mismo es cero)
  4. el triángulo de la desigualdad

La divergencia KL no es no negativo. No califica. La absoluta KL-divergencia es no negativo. Así que me voy a tirar de una "niebla de la guerra" y "responder a la pregunta que usted desea se preguntó". Voy a evaluar si el valor absoluto de la divergencia KL (o su positivo de la raíz) comprenden una métrica.

1) Porque es de valor absoluto, el valor no negativo es satisfecho

2) la Simetría significa que $g \left( x,y\right) =g \left( y,x\right)$.

La divergencia KL no es simétrica en general. La univariante de los casos donde es simétrica cuando se $p \left( x\right)=q \left( x\right)$, cuando el Pdf en virtud de evaluación son iguales en valor cuando se evalúan en el mismo punto de $x$. Valor absoluto de la divergencia KL es simétrica.

3) Identidad (en una medida de sentido) es satisfecho. El logaritmo natural de uno se aproxima a cero. Ni raíz cuadrada ni absoluta de cambio de valor de este.

4) el Triángulo de la desigualdad

Con el fin de satisfacer el requisito, deben cumplirse las siguientes condiciones:

$ KL(a,b) + KL(b,c) \ge KL(a,c)$

o

$ abs(KL(a,b)) + abs(KL(b,c)) \ge abs(KL(a,c))$

Usted puede ver la forma de $ abs(log(x))$ donde x es el cociente de las probabilidades para el PDF de interés. Hay lugares donde la desigualdad de triángulo es violado?

Figure 1

No estoy seguro de cómo participar en este ahora y volver más tarde. En este punto, sin el valor absoluto, el KL o sqrt(KL) se rompe como una métrica.

EDITAR: Así que ahora es "más tarde".

Yo estaba usando una simplificación de KL como $ KL = \sum_{i=1}^{N} {p(x_i) ln \left ( \frac {p(x_i)} {q(x_i)}\right )} $ ser tratados como $ KL_2 = \sum_{i=1}^{N} { ln \left ( \frac {p(x_i)} {q(x_i)}\right )} $ debido a que la escala lineal no va a impactar en la naturaleza de la métrica del espacio. El $ a_i$ va a ser (para mi distribuciones) continua y suave. Se podría argumentar que Gaussian mixture models (GMM) proporcionar una base suficiente para representar cualquier distribución arbitraria de precisión en una analogía a la Serie de Fourier de base para las series de tiempo de la señal de datos, pero tales argumentos son el tamaño de la muestra restringida.

El mismo tipo de argumento también puede ser hecho para la simétrica de la divergencia KL.

Por la inspección y la gráfica de demostración, considere la posibilidad de la región en la figura a la izquierda de $ x=1$. e imaginar dos casos: que la "a" y "b" son iguales y los que no lo son. Si son iguales, y debido a la naturaleza cóncava de la curva de el triángulo de la desigualdad se mantiene. Si son desiguales, a continuación, un triángulo puede ser trazada entre los puntos $ (a,f(a))$, $ (b, f(b))$, y $ (a+b,f(a+b))$. La más larga del segmento del triángulo es tal que $ f(min(a,b)) \ge f(a+b) $ y el triángulo de la desigualdad se mantiene.

Ahora a considerar cuando se $ a = b = 1$. Llegamos $ f(a) + f(b) = 0 + 0$ mientras $ f(a+b) = f(2) \gt 0$ y el triángulo de la desigualdad ya no se sostiene. En el dominio donde la curva es cóncava hacia abajo para cualquier $ f(x | x_i \ge 1)$ no son siempre los valores de los componentes para que el triángulo de la desigualdad está roto. Para $ KL_2$ el "radio de compatibilidad" para la métrica del espacio es 1.

Si el triángulo de la desigualdad es "roto" para$ KL_2$, entonces es roto por $ S(P,Q)$? Voy a seguir pensando en esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X