Usted quería un intuitiva interpretación de la entropía $H(X)$ entropía. Permítanme compartir con ustedes una manera en que yo entiendo la entropía. Tenga en cuenta que mi explicación será bastante intuitivo en vez de con rigor matemático.
Permítanme empezar por dar mi interpretación de la primera y, a continuación, deje que me justifique.
La entropía puede considerarse como el costo de la codificación de una distribución específica de $X$.
Ya que voy a describir en términos de la codificación de los mensajes, me voy a cambiar la notación para hacer la descripción más intuitiva. Queremos transmitir algún mensaje $(M=m)$ a través de algún canal $C$. Intuitivamente, el costo de enviar un mensajes a través de un canal es la longitud de la codificación del mensaje $m$. es decir, el más largo es el mensaje, más nos costará enviar el mensaje ya que tenemos que enviar a más (bits) de información. La frecuencia (y la probabilidad de obtener cada mensaje está determinado por el lenguaje de $\mathcal{L}$, que llegó el mensaje. Por ejemplo, el lenguaje podría ser de $\mathcal{L} = inglés$, la palabra "el" es probable que sea relativamente común (es decir, de alta frecuencia y alta probabilidad) y por lo tanto, debemos elegir sabiamente cómo codificar esto, ya que tendrá que enviarlo muy a menudo (o en el caso de inglés, escribir es bastante bastante a menudo!). Por eso queremos una codificación eficiente para "el". Por eficiente, queremos que significa la elección de un tipo de codificación que sucede a elegir el menor número de "cosas" (o de la información, bits, etc) que tenemos que enviar a través del canal. Debido a que los mensajes que nos tienen que enviar son algo aleatorio, entonces parece razonable que queremos enviar la menor cantidad de bits que podemos, al menos en promedio. yo.e intuitivamente, queremos minimizar:
$$ E [a |M|] = \sum_m Pr[M=m]|m|$$
donde $|m|$ denota la longitud de la codificación del mensaje m.
Por ejemplo, podríamos codificar de esta manera: para el común (alta probabilidad) de mensajes permite usar menos cantidad de bits de información para codificar ellos, ya que tenemos que enviar a ellos muy a menudo. Por lo que podemos codificar ellos, en función de la frecuencia relativa dictada por la distribución de $\mathcal{L}$. Con un poco más de pensamiento que usted puede venir para arriba con la codificación Huffman o algún otro esquema similar, si usted asegurarse de que los mensajes pueden ser decodificados de forma inequívoca, la idea principal en mi opinión es codificar palabras frecuentes con código corto longitudes y poco frecuentes, con más de código de longitud.
Resulta que Shannon demostró que la noción de entropía proporciona un preciso límite inferior para el número esperado de bits necesarios para codificar instancias/mensajes de muestreo de $P(M)$. es decir, si consideramos que cualquier libro de códigos para los valores de $M \in \mathcal{L}$, entonces la espera longitud del código, en relación a la distribución de $P(M)$, no puede ser menor que la entropía $H(M)$:
$$H(M) \leq E [a|M|]$$
Ya que existe un esquema que hace que esta desigualdad apretado, entonces podemos esperar para codificar los mensajes $M$ tan eficientemente como sea posible (en promedio).
Así pues, volviendo a la interpretación que he sugerido. Desde entonces, el costo de la codificación de algo que puede ser pensado como el número de bits que tenemos que enviar a través de un canal, y el valor óptimo (entropía) se puede lograr, entonces la entropía se convierte en el costo esperado de la codificación de una distribución de mensajes.
(o si usted desea ver desde la perspectiva de las desigualdades, es el mejor/mínimo costo esperado puede tener para codificar cualquier distribución conocida de $P(M)$.)