En mi pregunta anterior le pregunté acerca de un aspecto técnico de resolver un sistema de ecuaciones derivadas de buscando una entropía-la maximización de la distribución de $p(x)$ continua en $\mathbb{R}$ y limitada por KL-divergencia con un cero significa que la distribución Gaussiana. Es decir, además de los habituales de densidad de probabilidad y la varianza de restricciones, tengo la siguiente restricción para $p(x)$:
$$D(p_N(y)\|p(y))=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma_N}e^{-y^2/2\sigma^2}\log\frac{\frac{1}{\sqrt{2\pi}\sigma}e^{-y^2/2\sigma^2}}{p(y)}dy<\epsilon$$
Gracias al usuario anón, la forma de la función $p(y)$ fue encontrado, pero no es una función de densidad de y ahora estoy tratando de interpretar por qué es este el caso.
En primer lugar, aquí está el sistema de ecuaciones (copiada de la pregunta anterior) que deriva utilizando el Cálculo de Variaciones (y la ayuda de los Gallager de la "Teoría de la Información y la Comunicación Fiable":
$$\begin{align} 0&=\log(p(y))+1-\lambda-\gamma y^2-\eta \left(\frac{e^{-y^2/2}}{\sqrt{2\pi}}\right)\left(\frac{1}{p(y)}\right)\\ 0&=1-\int_{-\infty}^{\infty}p(y)dy\\ 0&=1-\int_{-\infty}^{\infty}y^2p(y)dy\\ 0&=c+\int_{-\infty}^{\infty}\frac{e^{-y^2/2}}{\sqrt{2\pi}}\log(p(y))dy \end{align} $$
(para simplificar, me puse $\sigma=1$; $c=\epsilon+\frac{1}{2}\log(2\pi )$)
De anon útil comentario, realmente podemos resolver la primera ecuación en términos de la función W de Lambert para obtener el siguiente:
$$p(x)=\frac{\eta e^{-y^2/2}}{\sqrt{2\pi}W(e^{-(1+2\gamma)y^2/2+(1-\lambda)})}$$
Cuando $|y|\rightarrow\infty$, $e^{-ay^2+b}\rightarrow 0$, y ya $W(0)=0$, $p(y)\rightarrow\infty$. Por lo tanto, esta es, obviamente, no un pdf!
Esto se debe enteramente a la KL-divergencia de restricción (muy similar situación se presenta cuando la varianza de la restricción se elimina). ¿Cómo explicar esto? Obviamente, hay distribuciones de probabilidad que cumplen con el KL-divergencia de la restricción (por ejemplo, una Gaussiana debidamente recogido la varianza). ¿Significa esto que la distribución óptima no existe, y todas las distribuciones que uno puede tratar sería la sub-óptimo? Hay una rigurosa explicación para esto?
Tal vez hice algo mal? Hay otro método debería haber empleado?