En 1946, el geofísico y estadístico Bayesiano Harold Jeffreys introdujo lo que hoy llamamos el de Kullback-Leibler divergencia, y descubrió que dos distribuciones que son "infinitamente cerca" (esperemos que las Matemáticas SE chicos no lo ven de esta ; -)) se puede escribir sus Kullback-Leibler la divergencia como una forma cuadrática cuyos coeficientes están dados por los elementos de la matriz de información de Fisher. Él interpretó esta forma cuadrática como el elemento de longitud de un colector de Riemann, con la información de Fisher jugando el papel de la métrica de Riemann. A partir de esta geometrización del modelo estadístico, se deriva de su Jeffreys previo como medida de forma natural inducida por la métrica de Riemann, y que esta medida puede interpretarse como intrínsecamente distribución uniforme en el colector, aunque, en general, no es una medida finita.
Para escribir una rigurosa prueba, usted tendrá que pillar todas las condiciones de regularidad y de cuidar el orden de los términos de error en las expansiones de Taylor. Aquí está un breve esbozo del argumento.
El simétrico de Kullback-Leibler divergencia entre las dos densidades $f$ $g$ se define como
$$
D[f,g] = \int (f(x) - g(x)) \log\left(\frac{f(x)}{g(x)} \right) dx \, .
$$
Si tenemos una familia de densidades parametrizada por $\theta=(\theta_1,\dots,\theta_k)$, luego
$$
D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] = \int ( p(x,\mid\theta) - p(x\mid\theta + \Delta\theta)) \log\left( \frac{p(x\mid\theta)}{p(x\mid\theta + \Delta\theta)}\right) \,dx \, ,
$$
en que $\Delta\theta=(\Delta\theta_1,\dots,\Delta\theta_k)$. La introducción de la notación
$$
\Delta p(x\mid\theta) = p(x\mid\theta) - p(x\mid\theta + \Delta\theta) \, ,
$$
algunos simple álgebra da
$$
D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] = \int\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)p(x\mid\theta)\,dx \, .
$$
El uso de la expansión de Taylor para el logaritmo natural, tenemos
$$
\log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right) \approx \frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \, ,
$$
y por lo tanto
$$
D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] \approx \int\left(\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)^2p(x\mid\theta)\,dx \, .
$$
Pero
$$
\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \approx \frac{1}{p(x\mid\theta)} \sum_{i=1}^k \frac{\partial p(x\mid\theta)}{\parcial\theta_i} \Delta\theta_i = \sum_{i=1}^k \frac{\partial \log p(x\mid\theta)}{\parcial\theta_i} \Delta\theta_i \, .
$$
Por lo tanto
$$
D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] \approx \sum_{i,j=1}^k g_{ij} \,\Delta\theta_i \Delta\theta_j \, ,
$$
en el que
$$
g_{ij} = \int \frac{\partial \log p(x\mid\theta)}{\parcial\theta_i} \frac{\partial \log p(x\mid\theta)}{\parcial\theta_j} p(x\mid\theta) \,dx \, .
$$
Este es el artículo original:
Jeffreys, H. (1946). Un invariante de la forma de la probabilidad anterior en la estimación de los problemas. Proc. Royal Soc. de Londres, de la Serie A, 186, 453-461.