Aquí es wolfram definición de métricas: http://mathworld.wolfram.com/Metric.html
Dicen que las propiedades de las métricas son:
- no negativo
- la simetría
- distancia de identidad (la distancia entre un punto y en sí mismo es cero)
- el triángulo de la desigualdad
La divergencia KL no es no negativo. No califica. La absoluta KL-divergencia es no negativo. Así que me voy a tirar de una "niebla de la guerra" y "responder a la pregunta que usted desea se preguntó". Voy a evaluar si el valor absoluto de la divergencia KL (o su positivo de la raíz) comprenden una métrica.
1) Porque es de valor absoluto, el valor no negativo es satisfecho
2) la Simetría significa que $g \left( x,y\right) =g \left( y,x\right)$.
La divergencia KL no es simétrica en general. La univariante de los casos donde es simétrica cuando se $p \left( x\right)=q \left( x\right)$, cuando el Pdf en virtud de evaluación son iguales en valor cuando se evalúan en el mismo punto de $x$. Valor absoluto de la divergencia KL es simétrica.
3) Identidad (en una medida de sentido) es satisfecho. El logaritmo natural de uno se aproxima a cero. Ni raíz cuadrada ni absoluta de cambio de valor de este.
4) el Triángulo de la desigualdad
Con el fin de satisfacer el requisito, deben cumplirse las siguientes condiciones:
$ KL(a,b) + KL(b,c) \ge KL(a,c)$
o
$ abs(KL(a,b)) + abs(KL(b,c)) \ge abs(KL(a,c))$
Usted puede ver la forma de $ abs(log(x))$ donde x es el cociente de las probabilidades para el PDF de interés. Hay lugares donde la desigualdad de triángulo es violado?
No estoy seguro de cómo participar en este ahora y volver más tarde. En este punto, sin el valor absoluto, el KL o sqrt(KL) se rompe como una métrica.
EDITAR:
Así que ahora es "más tarde".
Yo estaba usando una simplificación de KL como $ KL = \sum_{i=1}^{N} {p(x_i) ln \left ( \frac {p(x_i)} {q(x_i)}\right )} $ ser tratados como $ KL_2 = \sum_{i=1}^{N} { ln \left ( \frac {p(x_i)} {q(x_i)}\right )} $ debido a que la escala lineal no va a impactar en la naturaleza de la métrica del espacio. El $ a_i$ va a ser (para mi distribuciones) continua y suave. Se podría argumentar que Gaussian mixture models (GMM) proporcionar una base suficiente para representar cualquier distribución arbitraria de precisión en una analogía a la Serie de Fourier de base para las series de tiempo de la señal de datos, pero tales argumentos son el tamaño de la muestra restringida.
El mismo tipo de argumento también puede ser hecho para la simétrica de la divergencia KL.
Por la inspección y la gráfica de demostración, considere la posibilidad de la región en la figura a la izquierda de $ x=1$. e imaginar dos casos: que la "a" y "b" son iguales y los que no lo son. Si son iguales, y debido a la naturaleza cóncava de la curva de el triángulo de la desigualdad se mantiene. Si son desiguales, a continuación, un triángulo puede ser trazada entre los puntos $ (a,f(a))$, $ (b, f(b))$, y $ (a+b,f(a+b))$. La más larga del segmento del triángulo es tal que $ f(min(a,b)) \ge f(a+b) $ y el triángulo de la desigualdad se mantiene.
Ahora a considerar cuando se $ a = b = 1$. Llegamos $ f(a) + f(b) = 0 + 0$ mientras $ f(a+b) = f(2) \gt 0$ y el triángulo de la desigualdad ya no se sostiene. En el dominio donde la curva es cóncava hacia abajo para cualquier $ f(x | x_i \ge 1)$ no son siempre los valores de los componentes para que el triángulo de la desigualdad está roto. Para $ KL_2$ el "radio de compatibilidad" para la métrica del espacio es 1.
Si el triángulo de la desigualdad es "roto" para$ KL_2$, entonces es roto por $ S(P,Q)$? Voy a seguir pensando en esto.