No soy matemático. He buscado en Internet sobre la divergencia KL. Lo que he aprendido es que la divergencia KL mide la información perdida cuando aproximamos la distribución de un modelo con respecto a la distribución de entrada. He visto esto entre dos distribuciones continuas o discretas. ¿Podemos hacerlo entre continuas y discretas o viceversa?
Respuestas
¿Demasiados anuncios?Sí, la divergencia KL entre variables aleatorias continuas y discretas está bien definida. Si $P$ y $Q$ son distribuciones en algún espacio $\mathbb{X}$ entonces ambos $P$ y $Q$ tienen densidades $f$ , $g$ con respecto a $\mu = P+Q$ y $$ D_{KL}(P,Q) = \int_{\mathbb{X}} f \log\frac{f}{g}d\mu. $$
Por ejemplo, si $\mathbb{X} = [0,1]$ , $P$ es la medida de Lebesgue y $Q = \delta_0$ es una masa puntual en $0$ entonces $f(x) = 1-\mathbb{1}_{x=0}$ , $g(x) = \mathbb{1}_{x=0}$ y $$D_{KL}(P, Q) = \infty.$$
No: la divergencia KL sólo se define en distribuciones sobre un espacio común. Se pregunta por la densidad de probabilidad de un punto $x$ bajo dos distribuciones diferentes, $p(x)$ y $q(x)$ . Si $p$ es una distribución sobre $\mathbb{R}^3$ y $q$ una distribución en $\mathbb{Z}$ entonces $q(x)$ no tiene sentido para los puntos $p \in \mathbb{R}^3$ y $p(z)$ no tiene sentido para los puntos $z \in \mathbb{Z}$ . De hecho, ni siquiera podemos hacerlo para dos distribuciones continuas sobre espacios de dimensiones diferentes (o discretas, o cualquier caso en el que los espacios de probabilidad subyacentes no coincidan).
Si tiene en mente un caso concreto, puede que se le ocurra alguna medida similar de disimilitud entre distribuciones. Por ejemplo, podría tener sentido codificar una distribución continua bajo un código para una discreta (obviamente con pérdida de información), por ejemplo, redondeando al punto más cercano en el caso discreto.
No en general. La divergencia KL es
$$ D_{KL}(P \ || \ Q) = \int_{\mathcal{X}} \log \left(\frac{dP}{dQ}\right)dP $$
siempre que $P$ es absolutamente continua con respecto a $Q$ y ambos $P$ y $Q$ son $\sigma$ -finito (es decir, en condiciones en las que $\frac{dP}{dQ}$ está bien definida).
Para una divergencia de KL de "continua a discreta" entre medidas en algún espacio habitual, tenemos el caso en el que la medida de Lebesgue es absolutamente continua con respecto a la medida de contaje, pero la medida de contaje no lo es. $\sigma$ -finito.