9 votos

Confundido por Kullback-Leibler en las distribuciones de probabilidad condicional

Entiendo bastante bien la divergencia de Kullback-Leibler cuando se trata de una distribución de probabilidad sobre una sola variable. Sin embargo, actualmente estoy tratando de enseñarme métodos variacionales y el uso de la divergencia KL en probabilidades condicionales me está atrapando. La fuente con la que estoy trabajando está aquí .

En concreto, el autor representa la divergencia KL de la siguiente manera:

$$KL(Q_ (Z|X)||P(Z|X)) = \sum_{zZ} q_ (z|x) log\frac{q_ (z|x)}{p(z|x)}$$

La confusión se produce en la suma de todos los elementos. $Z$ . Dado que $z \in Z$ y $x \in X$ En este caso, yo habría esperado (por analogía con la entropía condicional) una doble suma de la forma

$$KL(Q_ (Z|X)||P(Z|X)) = \sum_{zZ} \sum_{xX} q_ (z|x) log\frac{q_ (z|x)}{p(z|x)}$$

Por lo demás, me parece que el KL sólo se calcula para una muestra de $X$ . ¿Me estoy perdiendo algo básico aquí? Y si mis intuiciones no son correctas, cualquier consejo para volver a encarrilarlas sería útil; estoy aprendiendo yo mismo estas cosas, así que no tengo el beneficio de la instrucción formal.

14voto

The Diamond Z Puntos 94

Depende de si se condiciona a una variable aleatoria o a un evento.

Dada una variable aleatoria $x$ ,

$$ \operatorname{KL}[p(y \mid x) \,\|\, q(y \mid x)] \doteq \iint p(\bar{x},\bar{y}) \ln\frac{p(\bar{y} \mid \bar{x})}{q(\bar{y} \mid \bar{x})} \mathrm{d}\bar{x} \mathrm{d}\bar{y} \quad\text{or}\quad \sum_{\bar{x}}\sum_{\bar{y}} p(\bar{x},\bar{y}) \ln\frac{p(\bar{y} \mid \bar{x})}{q(\bar{y} \mid \bar{x})}. $$

Dado un evento $\bar{x}$ ,

$$ \operatorname{KL}[p(y \mid \bar{x}) \,\|\, q(y \mid \bar{x})] \doteq \int p(\bar{y}|\bar{x}) \ln\frac{p(\bar{y} \mid \bar{x})}{q(\bar{y} \mid \bar{x})} \mathrm{d}\bar{y} \quad\text{or}\quad \sum_{\bar{y}} p(\bar{y}|\bar{x}) \ln\frac{p(\bar{y} \mid \bar{x})}{q(\bar{y} \mid \bar{x})}. $$

Obsérvese cómo condicionar un evento equivale a cambiar la distribución de probabilidad sobre su variable a una masa puntual. Esto es lo que convierte la articulación en un condicional anterior,

$$ p'(x,y) \doteq p(y|x)\delta_{\bar{x}}(x)=p(y|\bar{x}). $$

Para ser más explícito, también se puede elegir en lugar del KL condicionado a una variable aleatoria utilizar una expectativa sobre evento del KL condicionado a esos eventos,

$$ \operatorname{KL}[p(y \mid x) \,\|\, q(y \mid x)] =\operatorname{E}_{\bar{x}\sim p(x)}\big[ \operatorname{KL}[p(y \mid \bar{x}) \,\|\, q(y \mid \bar{x})] \big]. $$

Mezclar variables aleatorias y evento es bastante común, pero a menudo es fácil saber por el contexto a qué se refiere.

2voto

palehorse Puntos 8268

No veo muy bien lo que te confunde. Piensa en cómo calculamos, por ejemplo, una expectativa condicional: $E(Z \mid X)=\sum_Z P(Z \mid X) $ es decir, sumamos sólo sobre $Z$ y el resultado es una función de la variable condicionante $X$ . (Dicho de otra manera, su cada valor de $X$ tenemos que $P(Z \mid X=x)$ es una distribución de probabilidad diferente - y por lo tanto para cada valor de $X$ tenemos diferentes valores del (condicionado a $X=x$ ) expectativa, varianza, etc.). Lo mismo ocurre aquí. Y la divergencia KL condicionada no es un número, sino una función de $X$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X