4 votos

¿Una lista de diferentes medidas de distancia / diferencia / desemejanza / similitud de dos distribuciones de probabilidad?

Yo quería saber más acerca de los diferentes métodos para la comparación de las similitudes de dos distribuciones de probabilidad P y Q.

Yo quería una lista de los diferentes métodos que existen para la comparación de las distribuciones de probabilidad.

Por ejemplo, los dos que soy consciente de que existen son:

  1. KL-Divergencia
  2. EMD (tierras de la empresa de mudanzas distancia)

Me preguntaba si la gente supiera más acerca de las diferentes medidas y si podría ser una buena referencia para aprender sobre él. También, en la parte superior de la prestación de la medida de distancia que estás sugiriendo, si usted puede proporcionar un breve intuición en él antes de la investigación es más, podría ser muy útil!

4voto

Jonathan Amend Puntos 131

La referencia "clásica": http://arxiv.org/abs/math/0209021 (esta respuesta ya se proporcionó en: Prokhorov métrica vs. norma de variación total )

3voto

user139388 Puntos 2826

No es el total de la variación de la distancia entre finito medidas de $\mu$$\nu$: $$ \frac{1}{2} \sum_{i \in S} |\mu(i) - \nu(i)| \qquad \ (\text{discretos caso}) $$

$$ \frac{1}{2} \int_\Omega |\mu(i) - \nu(i)|d\pi \qquad \ (\text{continuo de caso}) $$ (aquí se $\mu,\nu << \pi$).

No es la $\chi^2$ distancia a la que J. A. de Relleno utilizados en un papel (no recuerdo el nombre) para medir la distancia entre la distribución de $\pi_n$ tiempo $n$ con el estado estacionario $\pi$ para una Cadena de Markov en una contables de espacio de estado $S$: $$ \chi^2_n = \sum_{i \in S} \frac{(\pi_n(i) - \pi(i))^2}{\pi(i)}. $$ Esto está dando la distancia relativa en $i$ en comparación con el tamaño de $\pi(i)$, por lo que el efecto es amplificado donde $\pi$ es pequeña. Llenar límites que el total de variacional distancia con el $\chi^2$ a distancia.

Este enlace se enumeran varias otras métricas sobre las que me temo que no sé mucho (lo siento!).

3voto

Arash Puntos 6587

Otro documento relacionado con la pregunta:

http://arxiv.org/pdf/1403.7164v4.pdf


Primera observación que podemos ofrecer es la relación entre dos distancias: la variación total de la distancia y de KL-divergencia. Esto se da por Pinkser la desigualdad: $$ \frac{1}{2}\sum_{x\in\mathcal{X}} |P(x)-Q(x)|\leq \sqrt{\frac 12 D(P||Q)}. $$


Sin embargo KL-divergencia aparece en algunos otros contextos también. Supongamos que $X$ $Y$ son dos variables aleatorias definidas sobre el mismo conjunto $\mathcal{X}$. A continuación, considere la siguiente probabilidad: $$ \Pr(X = Y)=\sum_{x,y\in \mathcal{X}}P(x)Q(y)\mathbf{1}(x=y)=\sum_{x\in \mathcal{X}}P(X)Q(X) $$ Podemos simplificar aún más el anterior: $$ \sum_{x\in \mathcal{X}}P(X)Q(X)=\mathbb{E}(Q(X))=\mathbb{E} e^{\log Q(X)}) \geq e^{\mathbb{E}(\log Q(X))} $$ Y por último: $$ \mathbb{E}(\log Q(X))=\mathbb{E}(\log \frac {P(X)}{P(X)}+\log P(X))=-H(X)-D(P||Q). $$ Por lo tanto tenemos:

$$ \Pr(X = Y)\geq e^{-H(X)-D(P||Q)} $$

donde: $$ D(P||Q)=\sum_{x\in\mathcal{X}}P(x)\log\frac{P(x)}{Q(x)}. $$


Podemos ver que KL-divergencia, naturalmente, aparece aquí. Parece que en otros lugares también, Por ejemplo, en gran desviación de la teoría. Considere la posibilidad de una secuencia de yo.yo.d. Las variables aleatorias de Bernoulli $X_1,...,X_n$ con el parámetro $p$. Sabemos por la ley de los grandes números que para $S_n=X_1+...+X_n$, $\frac{S_n}n$ será una.e. $p$ $n\to\infty$ . Ahora, ¿cuál es la probabilidad de que $\frac{S_n}n$ se desvía de $p$ $\epsilon$ (por supuesto, para no trivial de la elección de $\epsilon$)? De gran desviación de la teoría, sabemos que: $$ \Pr(\frac{S_n}n \geq (p+\epsilon))\aprox e^{-nD(p+\epsilon||p)} $$ donde $D(p+\epsilon||p)$ es KL-divergencia entre dos de Bernoulli con los parámetros de $p+\epsilon$$p$.


Para resumir, KL-divergencia parece muy atractivo debido a sus recurrentes apariciones, pero no hay ningún "preferencias personales" en matemáticas. Todo depende del problema que se esté trabajando y del contexto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X