Si extraes muestras de una distribución desconocida, ¿cómo puedes medir la divergencia KL entre la distribución desconocida y una distribución gaussiana con media cero y varianza unitaria N(0,1)?
¿Podemos utilizar los momentos medidos a partir de las muestras extraídas? ¿O cómo podemos abordarlo?
Además, sería interesante que el método fuera diferenciable.
Encontré algunos trabajos relacionados:
En [1], los métodos se implementan para comparar distribuciones desconocidas y sólo se tienen las muestras de ambas distribuciones.
En [2], los autores afirman: "Desde hace algún tiempo se sabe que en el caso de la distribución gaussiana, la coincidencia de los dos primeros momentos de la densidad original produce la aproximación óptima en términos de y demuestran que también es cierto para algunas distribuciones de probabilidad hiperesféricas, a saber, la distribución de von Mises-Fisher y la distribución de Watson.
Referencias:
[1] Estimadores de la divergencia KL, https://github.com/nhartland/KL-divergence-estimators
[2] Kurz, Gerhard, Florian Pfaff y Uwe D. Hanebeck. "Kullback-Leibler Divergence and Moment Matching for Hyperspherical Probability Distributions", https://www.researchgate.net/publication/305449272_Kullback-Leibler_Divergence_and_Moment_Matching_for_Hyperspherical_Probability_Distributions