Distancia en la métrica inducida por la matriz de información de Fisher

Question

Distancia en la métrica inducida por la matriz de información de Fisher

Preguntado el 27 de Noviembre, 2019: Cuando se hizo la pregunta
89 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Desde esto (sección 2.1.2) papel que cito:

"La matriz de información de Fisher define una métrica (riemanniana) sobre $\Theta$ la distancia en esta métrica, entre dos valores muy cercanos de $\theta$ viene dada por la raíz cuadrada del doble de la divergencia de Kullback-Leibler"

No entiendo cómo se produce este resultado. ¿Por qué la matriz FIM induce específicamente

$d(\theta_0,\theta_1) = \sqrt{2 KL(P_{\theta_0},P_{\theta_1})}$

como una fórmula para la distancia?

P.D.: Sin embargo, comprendo los problemas de utilizar la divergencia KL como medida de distancia.

Preguntado el 27 de Noviembre, 2019 por user3523184

Answer 1

1 Respuestas

Answer 2

2voto

botbot Puntos 1948

Hacer una serie de taylor $f(\mathbf{x}) = f(\mathbf{a}) + (\mathbf{x} - \mathbf{a})^\mathsf{T} D f(\mathbf{a}) + \frac{1}{2!} (\mathbf{x} - \mathbf{a})^\mathsf{T} D^2 f(\mathbf{a}) (\mathbf{x} - \mathbf{a}) + \cdots$ de la divergencia de Kullback-Leibler en la variable $\widehat{\theta}$ alrededor de $\theta$ se obtiene

$D_\text{KL}(\theta\parallel\widehat{\theta})\approx D_\text{KL}(\theta\parallel \widehat{\theta})|_{\widehat{\theta}=\theta}+(\widehat{\theta}-\theta)^\mathsf{T}\frac{\partial D_\text{KL}(\theta\parallel \widehat{\theta})}{\partial\widehat{\theta}}|_{\widehat{\theta}=\theta}+\frac{1}{2}(\widehat{\theta}-\theta)^\mathsf{T}\frac{\partial^2 D_\text{KL}(\theta\parallel \widehat{\theta})}{\partial\widehat{\theta}\partial\widehat{\theta}}|_{\widehat{\theta}=\theta}(\widehat{\theta}-\theta)$

y podemos ver que los dos primeros términos serán cero y el último será la matriz de información de Fisher,

$(a)\quad D_\text{KL}(\theta\parallel \widehat{\theta})|_{\widehat{\theta}=\theta}=\int p(x; \theta)\ln\frac{p(x;\theta)}{p(x; \widehat{\theta})} dx|_{\widehat{\theta}=\theta}=\int p(x; \theta)\ln\frac{p(x;\theta)}{p(x; \theta)} dx=\int p(x; \theta)\ln(1) dx=0$

$(b)\quad \frac{\partial D_\text{KL}(\theta\parallel \widehat{\theta})}{\partial\widehat{\theta}}|_{\widehat{\theta}=\theta}= \frac{\partial}{\partial\widehat{\theta}}\int p(x; \theta)\ln\frac{p(x;\theta)}{p(x; \widehat{\theta})} dx|_{\widehat{\theta}=\theta} = \frac{\partial}{\partial\widehat{\theta}}\int p(x; \theta)(\ln p(x;\theta) - \ln p(x; \widehat{\theta})) dx|_{\widehat{\theta}=\theta}=-\int p(x; \theta)\frac{\frac{\partial}{\partial\widehat{\theta}} p(x; \widehat{\theta})}{p(x; \widehat{\theta})} dx|_{\widehat{\theta}=\theta}=-\int \frac{\partial}{\partial\widehat{\theta}} p(x; \widehat{\theta})dx|_{\widehat{\theta}=\theta}=-\frac{\partial}{\partial\widehat{\theta}} \int p(x; \widehat{\theta})dx|_{\widehat{\theta}=\theta}=-\frac{\partial}{\partial\theta} \int p(x; \theta)dx=-\frac{\partial}{\partial\theta} 1=0$

$(c)\quad\frac{\partial^2 D_\text{KL}(\theta\parallel \widehat{\theta})}{\partial\widehat{\theta}\partial\widehat{\theta}}|_{\widehat{\theta}=\theta}=\frac{\partial^2}{\partial\widehat{\theta}\partial\widehat{\theta}}\int p(x; \theta)\ln\frac{p(x;\theta)}{p(x; \widehat{\theta})} dx|_{\widehat{\theta}=\theta}=\frac{\partial^2}{\partial\widehat{\theta}\partial\widehat{\theta}}\int p(x; \theta)(\ln p(x;\theta)-\ln p(x; \widehat{\theta})) dx|_{\widehat{\theta}=\theta}=-\int p(x; \theta)\frac{\partial^2}{\partial\widehat{\theta}\partial\widehat{\theta}}\ln p(x; \widehat{\theta}) dx|_{\widehat{\theta}=\theta}=-\int p(x; \theta)\frac{\partial^2}{\partial\theta\partial\theta}\ln p(x; \theta) dx={\cal I(\theta)}$

Así que utilizando (a)+(b)+(c) se obtiene que

$D_\text{KL}(\theta\parallel\widehat{\theta})\approx \frac{1}{2}(\widehat{\theta}-\theta)^\mathsf{T}{\cal I(\theta)}(\widehat{\theta}-\theta)$

Por lo tanto, $$d_{\text{KL}(\theta\parallel\widehat{\theta})}(\widehat{\theta},\theta)=\sqrt{2 D_\text{KL}(\theta\parallel\widehat{\theta})}\approx\sqrt{(\widehat{\theta}-\theta)^\mathrm{T}{{\cal I(\theta)}}(\widehat{\theta}-\theta)}=||\widehat{\theta}-\theta||_{{\cal I(\theta)}}^{\frac 1 2}=d_{\cal I(\theta)}(\widehat{\theta},\theta)$$

donde $d_{\cal I(\theta)}(\widehat{\theta},\theta)$ es la métrica definida por la matriz de información de Fisher

Como señala @user1936752 mientras que la matriz de información de fisher es simétrica porque es una métrica $d_{\cal I(\theta)}(\widehat{\theta},\theta)=d_{\cal I(\theta)}(\theta,\widehat{\theta})$ la divergencia de Kulback-Leibler no es una métrica como $D_\text{KL}(\theta\parallel\widehat{\theta})\neq D_\text{KL}(\widehat{\theta}\parallel\theta)$ por lo que tenemos que $d_{\cal I(\theta)}(\widehat{\theta},\theta)\neq d_{\cal I(\widehat{\theta})}(\widehat{\theta},\theta)$ porque

$$d_{\cal I(\theta)}(\widehat{\theta},\theta)\approx d_{\text{KL}(\theta\parallel\widehat{\theta})}(\widehat{\theta},\theta)\neq d_{\text{KL}(\widehat{\theta}\parallel\theta)}(\widehat{\theta},\theta)\approx d_{\cal I(\widehat{\theta})}(\widehat{\theta},\theta)$$

Espero que sea de ayuda

Respondido el 30 de Noviembre, 2019 por botbot (1948 Puntos )

Distancia en la métrica inducida por la matriz de información de Fisher

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Distancia en la métrica inducida por la matriz de información de Fisher

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: