La otra respuesta nos dice por qué no solemos ver el $-p_i+q_i$ plazo: $p$ y $q$ suelen ser residentes del símplex y, por tanto, suman uno, lo que lleva a $\sum - [p_i - q_i] = \sum - p_i + \sum q_i = -1 + 1 = 0$ .
En esta respuesta, quiero mostrar por qué esos términos están ahí en primer lugar, viendo la divergencia KL como la Divergencia de Bregman inducida por la (negativa) Entropía función.
Dada una función diferenciable $\psi$ la divergencia de Bregman inducida por ella es una función binaria en el dominio de $\psi$ :
$$ B_\psi(p,q) = \psi(p)-\psi(q)-\langle\nabla\psi(q),p-q\rangle $$
Intuitivamente, la divergencia de Bregman mide la diferencia entre $\psi$ evaluado en $p$ y la aproximación lineal a $\psi$ (sobre $q$ ) evaluado en $p$ . En $\psi$ es convexa, se garantiza que no es negativa y, por tanto, tampoco lo es la divergencia de Bregman.
Observando que si $\psi(p) = \sum_i p_i \log p_i$ , $\nabla\psi(p) = [\log p_i + 1]$ la divergencia entrópica de Bregman es..:
$$ B_e(p,q) = \sum_i p_i \log p_i - \sum_i q_i \log q_i - \sum_i [\log q_i + 1][p_i-q_i]\\ = \sum_i p_i \log p_i - \sum_i q_i \log q_i - \sum_i [\log q_i (p_i-q_i) + p_i-q_i]\\ = \sum_i p_i \log p_i - \sum_i q_i \log q_i - \sum_i p_i \log q_i + \sum_i q_i\log q_i - \sum_i[p_i-q_i]\\ = \sum_i p_i \log p_i - \sum_i p_i \log q_i - \sum_i[p_i-q_i]\\ = \sum_i p_i \log \frac{p_i}{q_i} + \sum_i[-p_i+q_i] $$
que reconocemos como la divergencia KL que mencionaste.