No existe ninguna interpretación de la entropía diferencial que sea tan significativa o útil como la de la entropía. El problema con las variables aleatorias continuas es que sus valores suelen tener probabilidad 0 y, por tanto, requerirían un número infinito de bits para codificarse.
Si se observa el límite de la entropía discreta midiendo la probabilidad de intervalos $[n\varepsilon, (n + 1)\varepsilon[$ se obtiene
$$-\int p(x) \log_2 p(x) \, dx - \log_2 \varepsilon$$
y no la entropía diferencial. Esta cantidad es en cierto sentido más significativa, pero divergirá hasta el infinito a medida que tomemos intervalos cada vez más pequeños. Tiene sentido, ya que necesitaremos cada vez más bits para codificar en cuál de los muchos intervalos cae el valor de nuestro valor aleatorio.
Una cantidad más útil para las distribuciones continuas es la entropía relativa (también divergencia de Kullback-Leibler). Para distribuciones discretas:
$$D_\text{KL}[P || Q] = \sum_x P(x) \log_2 \frac{P(x)}{Q(x)}.$$
Mide el número de bits adicionales utilizados cuando la distribución verdadera es $P$ pero utilizamos $-\log Q_2(x)$ bits para codificar $x$ . Podemos tomar el límite de la entropía relativa y llegar a
$$D_\text{KL}[p \mid\mid q] = \int p(x) \log_2 \frac{p(x)}{q(x)} \, dx,$$
porque $\log_2 \varepsilon$ se cancelará. Para las distribuciones continuas, esto corresponde al número de bits adicionales utilizados en el límite de intervalos infinitesimales. Tanto para las distribuciones continuas como para las discretas, siempre es no negativo.
Ahora, nosotros pourrait pensar en la entropía diferencial como la entropía relativa negativa entre $p(x)$ y una densidad no normalizada $\lambda(x) = 1$ ,
$$-\int p(x) \log_2 p(x) \, dx = -D_\text{KL}[p \mid\mid \lambda].$$
Su interpretación sería la diferencia en el número de bits necesarios al utilizar $-\log_2 \int_{n\varepsilon}^{(n + 1)\varepsilon} p(x) \, dx$ bits para codificar el $n$ -en lugar de $-\log \varepsilon$ bits. Aunque lo primero sería lo óptimo, esta diferencia puede ser ahora negativa, porque $\lambda$ está haciendo trampas (al no integrarse a 1) y, por tanto, podría asignar de media menos bits de los teóricamente posibles.
Véase Ponencia de Sergio Verdú para una gran introducción a la entropía relativa.