10 votos

¿Por qué el posterior bayesiano se concentra en torno al minimizador de la divergencia KL?

Considere la posterioridad bayesiana $\theta\mid X$ . Asintóticamente, su máximo se produce en la estimación MLE $\hat \theta$ que simplemente maximiza la probabilidad $\operatorname{argmin}_\theta\, f_\theta(X)$ .

Todos estos conceptos -prevalores bayesianos, maximización de la probabilidad- suenan a superprincipios y no son en absoluto arbitrarios. No hay un tronco a la vista.

Sin embargo, la MLE minimiza la divergencia KL entre la distribución real $\tilde f$ y $f_\theta(x)$ es decir, minimiza

$$ KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx $$

Woah-¿De dónde salieron estos registros? ¿Por qué la divergencia de KL en particular?

¿Por qué, por ejemplo, la minimización de una divergencia diferente no se corresponde con los conceptos superprincipales y motivados de los posteriors bayesianos y la maximización de la probabilidad anteriores?

Parece que hay algo especial en la divergencia de KL y/o en los troncos en este contexto. Por supuesto, podemos lanzar las manos al aire y decir que así son las matemáticas. Pero sospecho que puede haber alguna intuición más profunda o conexiones que descubrir.

5voto

Aaron Puntos 36

El uso de logaritmos en cálculos como éste proviene de teoría de la información . En el caso particular de la divergencia KL, la medida puede interpretarse como la información relativa de dos distribuciones:

$$\begin{equation} \begin{aligned} KL(\tilde{f} \parallel f_\theta) &= \int \limits_{-\infty}^\infty \tilde{f}(x) (\log \tilde{f}(x) - \log f_\theta (x)) \ dx \\[6pt] &= \Bigg( \underbrace{- \int \limits_{-\infty}^\infty \tilde{f}(x) \log f_\theta(x) \ dx}_{H(\tilde{f}, f_\theta)} \Bigg) - \Bigg( \underbrace{- \int \limits_{-\infty}^\infty \tilde{f}(x) \log \tilde{f}(x) \ dx}_{H(\tilde{f})} \Bigg), \\[6pt] \end{aligned} \end{equation}$$

donde $H(\tilde{f})$ es el entropía de $\tilde{f}$ y $H(\tilde{f}, f_\theta)$ es la entropía cruzada del $\tilde{f}$ y $f_\theta$ . La entropía puede considerarse como una medida de la tasa media producida por una densidad (aunque la entropía cruzada es un poco más complicada). La minimización de la divergencia KL para un valor fijo $\tilde{f}$ (como en el problema que mencionas) es equivalente a minimizar la entropía cruzada, por lo que a esta optimización se le puede dar una interpretación teórica de la información.

No me es posible dar una buena explicación de la teoría de la información, y de las propiedades de las medidas de información, en un breve post. Sin embargo, recomiendo echar un vistazo a este campo, ya que está estrechamente relacionado con la estadística. Muchas medidas estadísticas que implican integrales y sumas sobre logaritmos de densidades son simples combinaciones de medidas de información estándar utilizadas en la teoría de la medida, y en tales casos, se pueden dar interpretaciones en términos de los niveles de información subyacentes en varias densidades, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X