¿Es posible utilizar Información de Fisher en p para obtener un límite superior útil en KL(q,p) ?
KL(q,p) se conoce como divergencia de Kullback-Liebler y se define para distribuciones discretas sobre k resultados de la siguiente manera:
KL(q,p)=k∑iqilogqipi
El enfoque más obvio es utilizar el hecho de que 1/2 x' I x es la expansión de Taylor de segundo orden de KL(p+x,p) donde I es la matriz de información de Fisher evaluada en p e intentar utilizarla como límite superior (derivación de la expansión del libro de Kullback, páginas 26 , 27 , 28 ).
Si p(x,t) da la probabilidad de observación x en una distribución discreta parametrizada por el vector de parámetros t La matriz de información de Fisher se define del siguiente modo
Iij(t)=∑xp(x,t)(∂∂tilogp(x,t))(∂∂tjlogp(x,t))
donde la suma se toma sobre todas las observaciones posibles.
A continuación se muestra una visualización de conjuntos de k=3 distribuciones multinomiales para algunas p (marcados como puntos negros) en los que se cumple este límite. A partir de los gráficos parece que este límite funciona para conjuntos de distribuciones que están "entre" p y la distribución de entropía "más lejana" 0.
Motivación: Teorema de Sanov limita la probabilidad de algún evento en términos de la divergencia KL del resultado más probable... pero la divergencia KL es difícil de manejar y sería mejor tener un límite más simple, especialmente si se puede expresar fácilmente en términos de parámetros de la distribución con la que estamos trabajando