La proyección del momento se define como $$\text{arg min}_{q\in Q} D(p||q)$$ mientras que la proyección de la información se define como $$\text{arg min}_{q\in Q} D(q||p)$$ . Aparte de la diferencia en la fórmula, ¿cómo debe interpretarse intuitivamente la diferencia entre ambas medidas? ¿Y cuándo hay que utilizar la proyección de momentos en lugar de la proyección de información, y viceversa?
Respuesta
¿Demasiados anuncios?Tanto la proyección M como la proyección I son proyecciones de una distribución de probabilidad $p$ en un conjunto de distribuciones $Q$ . Pueden definirse como la distribución $q $ elegido entre todos los incluidos en el conjunto $Q $ que está "más cerca" de $P$ . Aquí el concepto de "más cercana" se refiere a la distribución que imita la entropía relativa de $p$ a $q $ que es una medida de distancia bien conocida -también llamada divergencia de Kullback-Leibler y comúnmente denotada como $D(p||q)$ . En particular, dado que la entropía relativa expresa la información obtenida al pasar de $ q$ a $p$ la proyección M y la proyección I pueden interpretarse como las distribuciones que minimizan la cantidad de información que se pierde cuando $q$ se utiliza como sustituto de $p $ .
Dado que la entropía relativa como medida de distancia no es simétrica, la proyección M y la proyección I suelen ser diferentes. Las principales diferencias entre ellas pueden entenderse bien si tenemos en cuenta lo que imitan en términos de entropía y entropía cruzada. La proyección M es la distribución $q $ que imita
$$D (p||q)=-H_p +E_p (-\log {q}) $$
donde $H_p$ es la entropía de la distribución $p $ y $E_p (-\log {q}) $ es la entropía cruzada entre $p$ y $q $ . La distribución $q $ que imita esta distancia tiende generalmente a mostrar una alta densidad en todas las regiones que son probables según $p $ (esto se debe a que un pequeño $-\log {q} $ en estas regiones produce un segundo término menor). Además, la distribución $q $ que minimiza esta distancia tiende a extenderse por regiones con probabilidad intermedia según $p $ (es decir, no se concentra estrictamente sólo en los picos de $p $ ), porque la penalización debida a la baja densidad en estas regiones es considerable. El resultado final es que la proyección M suele mostrar una varianza relativamente grande.
Por otro lado, la proyección I es la distribución $q $ que imita
$$D (q||p)=-H_q +E_q (-\log {p}) $$
donde $H_q$ es la entropía de la distribución $q $ y $E_q (-\log {p})$ es la entropía cruzada entre $q $ y $p$ . Aunque el primer término penaliza un poco la baja entropía de $q $ a menudo predomina el efecto del segundo término, por lo que la distribución $q $ que imita esta distancia suele mostrar una densidad muy alta en todas las regiones donde $p $ es grande y de muy baja densidad en todas las regiones donde $p $ es pequeño. En otras palabras, la masa de $q $ tiende a concentrarse en la región del pico de $p$ . El resultado final es que la proyección I suele mostrar una varianza relativamente pequeña.
En cuanto a las principales aplicaciones, tanto la proyección M como la proyección I desempeñan un papel importante en los modelos gráficos. La proyección M es fundamental para los problemas de aprendizaje en los que tenemos que encontrar una distribución que se acerque a la distribución empírica del conjunto de datos del que queremos aprender. En cambio, la proyección I -más sencilla desde el punto de vista computacional- tiene importantes aplicaciones en la geometría de la información (por ejemplo, gracias a la versión informativa-geométrica del teorema de la desigualdad del triángulo de Pitágoras, donde la entropía relativa se considera como distancia al cuadrado en un espacio euclidiano) y para analizar los exponentes de error en varios problemas de teoría de la información, como la prueba de hipótesis, la codificación de fuentes y la codificación de canales. También puede utilizarse para la gestión de consultas de probabilidad, en particular cuando una distribución $p $ es demasiado complejo para permitir un proceso de respuesta eficiente. En este caso, el uso de una proyección I como aproximación de $p $ puede ser un buen enfoque para obtener una elaboración más eficiente de las consultas.