Así es como yo lo veo:
$$ D_{KL}(p(y_i | x_i) \:||\: q(y_i | x_i, \theta)) = H(p(y_i | x_i, \theta), q(y_i | x_i, \theta)) - H(p(y_i | x_i, \theta)) \tag{1}\label{eq:kl} $$
donde $p$ y $q$ son dos distribuciones de probabilidad. En el aprendizaje automático, normalmente sabemos $p$ que es la distribución del objetivo. Por ejemplo, en un problema de clasificación binaria, $\mathcal{Y} = \{0, 1\}$ por lo que si $y_i = 1$ , $p(y_i = 1 | x) = 1$ y $p(y_i = 0 | x) = 0$ y viceversa. Dada cada $y_i \: \forall \: i = 1, 2, \ldots, N$ donde $N$ es el número total de puntos del conjunto de datos, normalmente queremos minimizar la divergencia KL $D_{KL}(p,q)$ entre la distribución del objetivo $p(y_i | x)$ y nuestra distribución prevista $q(y_i | x, \theta)$ como media de todos los $i$ . (Lo hacemos ajustando los parámetros de nuestro modelo $\theta$ . Así, para cada ejemplo de entrenamiento, el modelo escupe una distribución sobre las etiquetas de clase $0$ y $1$ .) Para cada ejemplo, como el objetivo es fijo, su distribución nunca cambia. Así pues, $H(p(y_i | x_i))$ es constante para cada $i$ independientemente de los parámetros de nuestro modelo actual $\theta$ son. Así, el minimizador de $D_{KL}(p,q)$ es igual al minimizador de $H(p, q)$ .
Si se diera una situación en la que $p$ y $q$ fueran ambas variables (digamos, en las que $x_1\sim p$ y $x_2\sim q$ fueran dos variables latentes) y se quisiera igualar las dos distribuciones, entonces habría que elegir entre minimizar $D_{KL}$ y minimizar $H(p, q)$ . Esto se debe a que minimizar $D_{KL}$ implica maximizar $H(p)$ minimizando $H(p, q)$ implica minimizar $H(p)$ . Para ver esto último, podemos resolver la ecuación ( \ref {eq:kl}) para $H(p,q)$ : $$ H(p,q) = D_{KL}(p,q) + H(p) \tag{2}\label{eq:hpq} $$ En el primer caso, se obtendría una amplia distribución de $p$ mientras que el segundo daría lugar a uno concentrado en uno o unos pocos modos. Tenga en cuenta que, como profesional del ML, usted decide si desea minimizar $D_{KL}(p, q)$ o $D_{KL}(q, p)$ . A continuación se ofrece una pequeña discusión al respecto en el contexto de la inferencia variacional (VI).
En VI, debe elegir entre minimizar $D_{KL}(p,q)$ y $D_{KL}(q,p)$ que no son iguales ya que la divergencia KL no es simétrica. Si volvemos a tratar $p$ como se sabe, entonces minimizar $D_{KL}(p, q)$ daría lugar a una distribución $q$ que sea nítida y se centre en una o unas pocas zonas, minimizando $D_{KL}(q, p)$ daría lugar a una distribución $q$ que sea amplio y abarque un amplio abanico del ámbito de la $q$ . De nuevo, esto último se debe a que minimizar $D_{KL}(q, p)$ implica maximizar la entropía de $q$ .