Bien, repasemos algunas definiciones útiles que aclararán cómo calcular la divergencia de Kullback-Leibler aquí.
Por definición la suma de los parámetros de la distribución mutlinomial es 1; es decir, k∑m=1θm=1k∑m=1θm=1 ,
donde θmθm es la probabilidad del mthmth resultado que se produce.
La función de masa de la probabilidad (PMF) de la distribución multinomial es q(x)=n!Πkm=1(xm!)Πkm=1θxmm,q(x)=n!Πkm=1(xm!)Πkm=1θxmm, donde nn es el número total de experimentos independientes ejecutados tal que k∑m=1xm=nk∑m=1xm=n .
Ahora consideremos también otra distribución multinomial p(x)p(x) como p(x)=n!Πkm=1(xm!)Πkm=1(1k)xm=n!Πkm=1(xm!)(1k)n.p(x)=n!Πkm=1(xm!)Πkm=1(1k)xm=n!Πkm=1(xm!)(1k)n.
La divergencia de Kullback-Leibler resultante puede entonces calcularse en una variedad de declaraciones equivalentes DKL(p(x)||q(x))=k∑m=1(1klog(1kθm))=−k∑m=1(1klog(kθm))=−1klog(kkΠkm=1θm)=−1k(klog(k)+log(Πkm=1θm))=−log(k)−1kk∑m=1log(θm)=log(1k)−k∑m=11klog(θm)=k∑m=11klog(1k)−k∑m=11klog(θm)=−H(p(x))−Ep(x)[log(q(x))]=Ep(x)[log(1q(x))]−H(p(x)). Obsérvese que no se necesitan vectores para calcular la divergencia de Kullback-Leibler entre dos distribuciones multinomiales con el mismo número de categorías.