Sabemos que $H(X)$ cuantifica la cantidad de información que cada observación de $X$ o, lo que es lo mismo, la cantidad mínima de bits que necesitamos para codificar $X$ ( $L_X \to H(X)$ , donde $L_X$ es la longitud de código media óptima - primer teorema de Shannon)
La información mutua $$I(X;Y)=H(X) - H(X \mid Y)$$ mide la reducción de la incertidumbre (o la "información ganada") para $X$ cuando $Y$ es conocido.
Se puede escribir como $$I(X;Y)=D(p_{X,Y}\mid \mid p_X \,p_Y)=D(p_{X\mid Y} \,p_Y \mid \mid p_X \,p_Y)$$ donde $D(\cdot)$ es el Divergencia de Kullback-Leibler o distancia, o entropía relativa... o ganancia de información (este último término no se utiliza tanto en la teoría de la información, según mi experiencia).
Por lo tanto, son la misma cosa. De acuerdo, $D(\cdot)$ no es simétrico en sus argumentos, pero no dejes que te confunda. Estamos no informática $D(p_X \mid \mid p_Y)$ pero $D(p_X \,p_Y\mid \mid p_{X,Y})$ y esto es simétrico en $X,Y$ .
Una situación ligeramente diferente (para conectar con este ) surge cuando uno está interesado en el efecto de conocer un valor particular de $Y=y$ . En este caso, porque no estamos promediando en $y$ la cantidad de bits ganados [*] sería $ D(p_{X\mid Y} \mid \mid p_X )$ ... que depende en $y$ .
[*] Para ser precisos, esa es la cantidad de bits que desperdiciamos al codificar la fuente condicionada $X\mid Y=y$ como si no supiéramos $Y$ (utilizando la distribución no condicionada de $X$ )