Supongamos que usted está a construir un sistema de comunicación. Cada segundo, un elegido al azar mensaje es entregado a usted en el punto a y para asegurarse de que, con alta probabilidad será entregado en el punto B dentro de un tiempo finito. Usted sabe de antemano que los mensajes son posibles y cuál es su distribución. (Mensajes sucesivos se supone que para ser independiente).
Sin embargo, el ancho de banda (el número de bits que puede enviar por segundo) es caro, y usted quiere ser capaz de contrato de arrendamiento de un canal con un mínimo de capacidad que usted necesita para ser capaz de entregar los mensajes sin la construcción de un creciente retraso (de nuevo, con una alta probabilidad).
Si hay $n$ mensajes posibles, podría cumplir su objetivo por la compra de un ancho de banda suficiente para enviar a $\log_2(n)$ bits por segundo. Pero que podría ser un desperdicio ... digamos que el 99% de las veces el mensaje es "no hay comentarios". A continuación, puede codificar el mensaje como un solo 0 bits, y enviar todo lo demás como de 1 bit seguido por un número de mensaje. De esa manera usted sólo tiene que comprar ancho de banda para hablar $1+\log_2(n-1)/100$ bits por segundo. Esto deja suficiente espacio para enviar un 0 en cada momento nada interesante sucede. Una vez en un momento, cuando algo interesante sucede, se envía un 1 además de los bits adicionales, que le llevará alrededor de $\log_2(n)$ extra segundos y construir un pequeño retraso de los mensajes que son todos probable que sea solo 0. Pero ya que usted puede enviar los 0 ligeramente la velocidad de uno por segundo, en promedio, usted puede esperar a tener su atraso autorizado por la hora de la próxima ocurre algo interesante.
(Hay seguridad-al margen de los refinamientos de la teoría de colas aquí que no voy a entrar).
La moraleja de este ejemplo es que si el diseño de un sistema de codificación y está interesado en minimizar el esperado número de bits necesarios para enviar un mensaje, usted puede "permitirse el lujo" para pasar más bits en un raro mensaje porque usted no tiene que hacerlo tan a menudo.
Y resulta que, en el límite de $N\to\infty$, la más baja posible espera que el número de bits a enviar $N$ independientes idénticamente distribuidas mensajes (donde el mínimo es tomado todas las posibles estrategias de codificación), es exactamente $N$ veces la de Shannon, el contenido de la información de la distribución de probabilidad.