9 votos

Divergencia de Jensen-Shannon para distribuciones normales bivariadas

Dadas dos bivariante distribuciones normales $P \equiv \mathcal{N}(\mu_p, \Sigma_p)$$Q \equiv \mathcal{N}(\mu_q, \Sigma_q)$, estoy tratando de calcular de Jensen-Shannon divergencia entre ellos, que se define (para el caso discreto) como: $JSD(P\|Q) = \frac{1}{2} (KLD(P\|M)+ KLD(Q\|M))$ donde $KLD$ es el de Kullback-Leibler divergencia, y $M=\frac{1}{2}(P+Q)$
He encontrado la forma para calcular el $KLD$ en términos de las distribuciones de los parámetros, y por lo tanto $JSD$.

Mis dudas son:

  1. Para calcular el $M$, acabo de $M \equiv \mathcal{N}(\frac{1}{2}(\mu_p + \mu_q), \frac{1}{2}(\Sigma_p + \Sigma_q))$. Esto es correcto?

  2. He leído en [1] que el $JSD$ es acotado, pero que no parece ser cierto cuando tengo que calcular como se describió anteriormente para distribuciones normales. Qué significa estoy calculando mal, la violación de una hipótesis, o algo que no entiendo?

9voto

giulio Puntos 166

El punto medio de medida $\newcommand{\bx}{\mathbf{x}} \newcommand{\KL}{\mathrm{KL}}M$ es una mezcla de la distribución de los dos multivariante de las normales, por lo que no tiene el formulario que te dan en el post original. Deje $\varphi_p(\bx)$ ser la función de densidad de probabilidad de una $\mathcal{N}(\mu_p, \Sigma_p)$ aleatorios vectoriales y $\varphi_q(\bx)$ ser el pdf de $\mathcal{N}(\mu_q, \Sigma_q)$. A continuación, el pdf de medida es el punto medio $$ \varphi_m(\bx) = \frac{1}{2} \varphi_p(\bx) + \frac{1}{2} \varphi_q(\bx) \> . $$

De Jensen-Shannon divergencia es $$ \mathrm{JSD} = \frac{1}{2} (\KL(P\,\|M)+ \KL(Q\|M)) = h(M) - \frac{1}{2} (h(P) + h(Q)) \>, $$ donde $h(P)$ denota la (diferencial) de la entropía correspondiente a la medida de $P$.

Por lo tanto, su cálculo se reduce a calcular la diferencial de entropías. Para el normal multivariante $\mathcal{N}(\mu, \Sigma)$, la respuesta es bien conocido que se $$ \frac{1}{2} \log_2\big((2\pi e)^n |\Sigma|\big) $$ y la prueba se puede encontrar en cualquier número de fuentes, por ejemplo, la Cubierta y Thomas (1991), pp 230-231. Vale la pena señalar que la entropía de un multivariante normal es invariante con respecto a la media, como la expresión de arriba muestra. Sin embargo, esto casi con toda seguridad no se mantiene para el caso de una mezcla de las normales. (Pensar acerca de la selección de una amplia normal centrada en cero y otro concentrado normal donde el último es empujado lejos del origen.)

Por el punto medio de la medida, las cosas parecen ser más complicado. Que yo sepa, no hay ninguna forma cerrada de la expresión para la diferencial de la entropía $h(M)$. La búsqueda en Google de los rendimientos de un par de hits, pero la parte superior no parecen dar formas cerradas, en el caso general. Usted puede ser atrapado con la aproximación de esta cantidad de alguna manera.

Tenga en cuenta también que en el documento se hace referencia a no restringir el tratamiento solamente a distribuciones discretas. Que el tratamiento de un caso lo suficientemente general que el problema cae dentro de su marco. Ver la mitad de la segunda columna, en la página de 1859. Aquí es donde también se muestra que la divergencia es acotada. Esto es para el caso de dos medidas de carácter general y no se limita al caso de dos distribuciones discretas.

De Jensen-Shannon Divergencia ha venido un par de veces recientemente en otras preguntas en este sitio. Ver aquí y aquí.


Anexo: tenga en cuenta que una mezcla de las normales no es el mismo como una combinación lineal de las normales. La forma más sencilla de ver esto es a considerar el caso unidimensional. Deje $X_1 \sim \mathcal{N}(-\mu, 1)$ $X_2 \sim \mathcal{N}(\mu, 1)$ y sean independientes la una de la otra. Entonces, una mezcla de los dos normales el uso de pesas $(\alpha, 1-\alpha)$ $\alpha \in (0,1)$ la distribución $$ \varphi_m(x) = \alpha \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x+\mu)^2}{2}} + (1-\alfa) \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2}} \> . $$

La distribución de una combinación lineal de $X_1$ $X_2$ usando la misma pesos como antes, es decir, a través de la estable de la propiedad de la distribución normal es $$ \varphi_{\ell}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-(1-2\alpha)\mu)^2}{2\sigma^2}} \>, $$ donde $\sigma^2 = \alpha^2 + (1-\alpha)^2$.

Estas dos distribuciones son muy diferentes, aunque tienen la misma media. Esto no es un accidente y siguientes de la linealidad de la expectativa.

Para entender la mezcla de distribución, imagine que usted tenía que ir a un experto en estadística para que ella pudiera producir valores de esta distribución para usted. Ella tiene una realización de $X_1$ en una palma de la mano y una realización de $X_2$ en la otra palma de la mano (aunque no sé cual de las dos palmas cada uno). Ahora, su asistente, voltea una visión sesgada de la moneda con probabilidad de $\alpha$ fuera de la vista de usted y, a continuación, viene y le susurra el resultado en el estadístico de la oreja. Ella abre uno de sus palmas y se muestra la realización, pero no se lo dirá a usted el resultado de el tirón de la moneda. Este proceso produce la mezcla de distribución.

Por otro lado, la combinación lineal puede ser entendida en el mismo contexto. El consultor estadístico simplemente toma ambas realizaciones, se multiplica la primera por $\alpha$ y el segundo por $(1-\alpha)$, añade el resultado y lo muestra.

2voto

Doreen Puntos 11

El cardenal de la respuesta es correcta. Usted está tratando de obtener una forma cerrada de la solución para el Jensen-Shannon divergencia de dos Gaussianas; tal solución no existe.

Sin embargo, se puede calcular de Jensen-Shannon a precisión arbitraria mediante Monte Carlo de muestreo. Lo que necesita es una forma para calcular el $KLD(P|M)$, y, por extensión,$KLD(Q|M)$. El Kullback-Leibler divergencia se define como:

$$ KLD(P|M) = \int P(x) log\big(\frac{P(x)}{M(x)}\big) dx $$

El Monte Carlo aproximación de este es:

$$ KLD_{aprox}(P|M) = \frac{1}{n} \sum^n_i log\big(\frac{P(x_i)}{M(x_i)}\big) $$

donde el $x_i$ han sido la muestra de $P(x)$, que es sencilla, ya que es una Gaussiana en su caso. Como $n \to \infty$, $KLD_{approx}(P|M) \to KLD(P|M)$. $M(x_i)$ puede ser calculado como $M(x_i) = \frac{1}{2}P(x_i) + \frac{1}{2}Q(x_i)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X