14 votos

¿Preguntas sobre divergencia KL?

Yo soy la comparación de dos distribuciones con KL divergencia que me devuelve no normalizados número que, de acuerdo a lo que he leído acerca de esta medida, es la cantidad de información que se requiere para transformar una hipótesis en la otra. Tengo dos preguntas:

a) ¿hay una manera de cuantificar una divergencia KL para que tenga más sentido la interpretación, por ejemplo, como un tamaño del efecto o un R^2? Cualquier forma de estandarización?

b) En R, cuando se utiliza KLdiv (flexmix paquete), se puede establecer el 'esp' valor (estándar esp=1e-4), que establece todos los puntos menor que el esp estándar con el fin de proporcionar estabilidad numérica. He estado jugando con diferentes esp valores y, para mi conjunto de datos, me estoy haciendo una cada vez mayor divergencia KL menor será el número que elija. ¿Qué está pasando? Yo esperaría que los más pequeños de la esp, el más fiable de los resultados debe ser, ya que vamos a más "valores reales" llegar a ser parte de la estadística. No? Tengo que cambiar el esp ya que de lo contrario no calcula la estadística, sino simplemente se muestra como NA en la tabla de resultados...

Gracias de antemano, Ampleforth

11voto

Oak Puntos 1366

Suponga que se dan n IID muestras generado por p o q. Desea identificar la cual la distribución se genera con ellos. Tomar como hipótesis nula de que fueron generados por q. Vamos a indicar la probabilidad de error de Tipo I, erróneamente rechazar la hipótesis nula, y b indican la probabilidad de error de Tipo II.

A continuación, para la gran n, la probabilidad de error de Tipo I es de al menos

$\exp(-n \text{KL}(p,q))$

En otras palabras, para que una "óptima" procedimiento para la decisión, la probabilidad de que el Tipo me cae en más de un factor de exp(KL(p,q)) con cada punto de datos. Error de tipo II se cae por el factor de $\exp(\text{KL}(q,p))$ a más.

Para arbitrario n, a y b están relacionadas como sigue

$b \log \frac{b}{1-a}+(1-b)\log \frac{1-b}{a} \le n \text{KL}(p,q)$

y

$a \log \frac{a}{1-b}+(1-a)\log \frac{1-a}{b} \le n \text{KL}(q,p)$

Si expresamos la enlazado anteriormente como el límite inferior de a en términos de b y KL y la disminución de b a 0, resultado que parece acercarse a la "exp(-n KL(q,p))" enlazado, incluso para pequeñas n

Más detalles en la página 10 aquí, y las páginas 74 a 77 de Kullback de la "Teoría de la Información y las Estadísticas" (1978).

Como una nota del lado, esta interpretación puede ser utilizado para motivar a los Fisher Información métrica, ya que para cualquier par de distribuciones p,q en Fisher distancia k de cada uno de los otros (pequeño k) se necesita el mismo número de observaciones para distinguirlos

9voto

David Pokluda Puntos 4284

KL tiene un profundo significado cuando se visualiza un conjunto de dentities como un colector dentro de la fisher tensor métrico, que da la distancia geodésica entre dos "cierre" de las distribuciones. Formalmente:

$ds^2=2KL(p(x, \theta ),p(x,\theta + d \theta))$

Las siguientes líneas están aquí para explicar con detalles lo que se quiere decir con esto las fórmulas matemáticas.

Definición de la Fisher métrica.

Considere la posibilidad de una parametrización de la familia de distribuciones de probabilidad $D=(f(x, \theta ))$ (dado por densidades en $R^n$), donde $x$ es una variable aleatoria y theta es un parámetro de $R^p$. Puede que todos knnow que la matriz de información de fisher $F=(F_{ij})$ es

$F_{ij}=E[d(\log f(x,\theta))/d \theta_i d(\log f(x,\theta))/d \theta_j]$

Con esta notación $D$ es un colector de riemann y $F(\theta)$ es una métrica de Riemann tensor. (El interés de esta métrica es dada por cramer Rao límite inferior teorema)

Usted puede decir ... OK abstracción matemática, pero ¿dónde está KL ?

No es la abstracción matemática, si $p=1$ usted realmente puede imaginar su parametrización de la densidad de la curva (en lugar de un subconjunto de un espacio de dimensión infinita) y $F_{11}$ está conectado a la curvatura de la curva... (ver el trabajo seminal de Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282)

El geométrica respuesta a la parte de punto en su pregunta : el cuadrado de la distancia $ds^2$ entre los dos (cerrar) las distribuciones $p(x,\theta)$ $p(x,\theta+d \theta)$ sobre el múltiple de admisión (creo que de la distancia geodésica en la tierra de los dos puntos que están cerca, que está relacionada con la curvatura de la tierra) está dada por la forma cuadrática:

$ds^2= \sum F_{ij} d \theta^i d \theta^j$

y se sabe para ser el doble de la de Kullback Leibler Divergencia:

$ds^2=2KL(p(x, \theta ),p(x,\theta + d \theta))$

Si usted desea aprender más acerca de que sugiero leer el papel de Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Creo que también hay un libro de Amari acerca de la geometría de riemann en estadística pero no recuerdo el nombre)

7voto

BradC Puntos 1402

El KL(p,q) la divergencia entre las distribuciones p(.) y q(.) cuenta con una intuitiva teórico de la información de la interpretación que usted puede encontrar útil.

Supongamos que observamos los datos de x generados por algunos de distribución de probabilidad p(.). El límite inferior de la media codelength en bits, debe indicar los datos generados por p(.) está dada por la entropía de p(.).

Ahora, ya no sabemos que p(.) elegimos otra distribución, decir, p(.) para codificar (o describir, estado) de los datos. El promedio de codelength de datos generado por p(.) y codificados con q(.) necesariamente va a ser más que si la verdadera distribución p(.) fue utilizado para la codificación. La divergencia KL nos dice acerca de la ineficacia de esta alternativa de código. En otras palabras, el KL divergencia entre p(.) y q(.) es el número promedio de extra bits necesarios para codificar los datos generados por p(.) utilizando la codificación de distribución p(.). La divergencia KL es no negativo e igual a cero si el real generadora de datos de distribución se utiliza para codificar los datos.

2voto

michael kevin Puntos 9

Para (b) de parte de su pregunta, usted puede ejecutar en el problema que uno de sus distribuciones tiene densidad en una región donde el otro no.

$$ D( P \Vert Q ) = \sum p_i \ln \frac{p_i}{q_i} $$

Esto diverge si existe un $i$ donde $p_i>0$ y $q_i=0$. La épsilon numérica en la implementación de R "le ahorra" de este problema; pero significa que el valor resultante depende de este parámetro (técnicamente $q_i=0$ es no necesaria, solo que el $q_i$ es menor que epsilon numérica).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X