Considere la posterioridad bayesiana $\theta\mid X$ . Asintóticamente, su máximo se produce en la estimación MLE $\hat \theta$ que simplemente maximiza la probabilidad $\operatorname{argmin}_\theta\, f_\theta(X)$ .
Todos estos conceptos -prevalores bayesianos, maximización de la probabilidad- suenan a superprincipios y no son en absoluto arbitrarios. No hay un tronco a la vista.
Sin embargo, la MLE minimiza la divergencia KL entre la distribución real $\tilde f$ y $f_\theta(x)$ es decir, minimiza
$$ KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx $$
Woah-¿De dónde salieron estos registros? ¿Por qué la divergencia de KL en particular?
¿Por qué, por ejemplo, la minimización de una divergencia diferente no se corresponde con los conceptos superprincipales y motivados de los posteriors bayesianos y la maximización de la probabilidad anteriores?
Parece que hay algo especial en la divergencia de KL y/o en los troncos en este contexto. Por supuesto, podemos lanzar las manos al aire y decir que así son las matemáticas. Pero sospecho que puede haber alguna intuición más profunda o conexiones que descubrir.