Bien, repasemos algunas definiciones útiles que aclararán cómo calcular la divergencia de Kullback-Leibler aquí.
Por definición la suma de los parámetros de la distribución mutlinomial es 1; es decir, $$\sum_{m=1}^k\theta_m=1$$ ,
donde $\theta_m$ es la probabilidad del $m^{th}$ resultado que se produce.
La función de masa de la probabilidad (PMF) de la distribución multinomial es $$q(x)=\frac{n!}{\Pi_{m=1}^k(x_m!)}\Pi_{m=1}^k\theta_m^{x_m},$$ donde $n$ es el número total de experimentos independientes ejecutados tal que $$\sum_{m=1}^kx_m=n$$ .
Ahora consideremos también otra distribución multinomial $p(x)$ como $$p(x)=\frac{n!}{\Pi_{m=1}^k(x_m!)}\Pi_{m=1}^k\left(\frac{1}{k}\right)^{x_m}=\frac{n!}{\Pi_{m=1}^k(x_m!)}\left(\frac{1}{k}\right)^{n}.$$
La divergencia de Kullback-Leibler resultante puede entonces calcularse en una variedad de declaraciones equivalentes $$D_{KL}(p(x)||q(x))= \sum_{m=1}^k \left(\frac{1}{k}\log\left(\frac{\frac{1}{k}}{\theta_m}\right)\right)=-\sum_{m=1}^k \left(\frac{1}{k}\log\left(k\theta_m\right)\right)=-\frac{1}{k}\log\left(k^k\Pi_{m=1}^k\theta_m\right)\\=-\frac{1}{k}\left(k\log(k)+\log(\Pi_{m=1}^k\theta_m)\right)=-\log(k)-\frac{1}{k}\sum_{m=1}^k\log(\theta_m)=\log\left(\frac{1}{k}\right)-\sum_{m=1}^k\frac{1}{k}log\left(\theta_m\right)=\sum_{m=1}^k\frac{1}{k}\log\left(\frac{1}{k}\right)-\sum_{m=1}^k\frac{1}{k}log\left(\theta_m\right)=-H\left(p(x)\right)-\mathbb{E}_{p(x)}[log(q(x))]\\=\mathbb{E}_{p(x)}\left[\log\left(\frac{1}{q(x)}\right)\right]-H(p(x)).$$ Obsérvese que no se necesitan vectores para calcular la divergencia de Kullback-Leibler entre dos distribuciones multinomiales con el mismo número de categorías.