Supongamos que generamos la siguiente secuencia eligiendo repetidamente una letra del alfabeto (26 letras):
LLL EEE HHH QQQ MMM QQQ OOO TTT EEE YYY XXX GGG...
Así, la primera letra de cada grupo de 3 letras se extrae de forma independiente con una probabilidad de $\frac{1}{26}$ y las dos siguientes son entonces deterministas e iguales a la letra extraída en la primera posición de cada grupo.
La entropía de cada primer símbolo de la secuencia me parece $\log26$ (utilizamos base 2) ya que necesitamos $\log26$ bits y $0$ las dos letras que le siguen, ya que no aportan ninguna información nueva y no necesito ninguna parte nueva.
Así, al añadir una nueva letra en la segunda secuencia (en el ejemplo, la letra "E"), necesitaría $2$ veces $\log26$ bits para describir 6 letras en la secuencia, por lo que eventualmente podría comprimir mi secuencia con un factor de $3$ y por lo tanto mi tasa de entropía sería $\frac{\log26}{3}$ .
Pero me pierdo con la derivación teórica de la misma. Dice que la tasa de entropía se define como:
$$H(X) = \lim_{n->\infty} \frac{1}{n}H(X_1, X_2, X_3, \dots X_n)$$
Luego dice que $H(X)$ es una medida de la entropía por símbolo de la variable $X_t$ y la función es como:
$$\log26 + 0 + 0 + \log26 + 0 + 0+\dots+ \log26 + 0 + 0$$
Ahora dice que esta función está "aplastada" entre dos límites:
$\frac{\log26}{3}n \le H(X_1, X_2, X_3, \dots X_n) \le \frac{\log26}{3}(n+2)$
Dividiendo ambos límites con $n$ Veo que la tasa de entropía es efectivamente $\frac{\log26}{3}$ .
Pero, ¿podría alguien explicar la intuición detrás de la función $H(X)$ y cómo se establecen estos límites?