Estoy leyendo el < Fundamentos de la Estadística de Procesamiento de Lenguaje Natural >. Se tiene la siguiente declaración acerca de la relación entre la entropía de información y el modelo de lenguaje:
...El punto esencial aquí es que si un modelo de captura más de la la estructura de una lengua, entonces la entropía del modelo deben ser inferior. En otras palabras, se puede demandar a la entropía como una medida de la calidad de nuestros modelos...
Pero, ¿cómo acerca de este ejemplo:
Supongamos que tenemos una máquina que escupen $2$ personajes, a y B, uno por uno. Y el diseñador de la máquina hace que a y B tiene la misma probabilidad.
Yo no soy el diseñador. Y yo tratamos de modelo a través de la experimentación.
Durante un experimento inicial, veo que la máquina de dividir la siguiente secuencia de caracteres:
A, B, A
Así que el modelo de la máquina como $P(A)=\frac{2}{3}$$P(B)=\frac{1}{3}$. Y podemos calcular la entropía de este modelo como : $$ \frac{-2}{3}\cdot\log{\frac{2}{3}}-\frac{1}{3}\cdot\log{\frac{1}{3}}= 0.918\quad\text{bit} $$ (la base es $2$)
Pero entonces, el diseñador de decirme acerca de su diseño, así que he refinado mi modelo con esto obtener más información. El nuevo modelo se parece a esto:
$P(A)=\frac{1}{2}$ $P(B)=\frac{1}{2}$
Y la entropía de este nuevo modelo es: $$ \frac{-1}{2}\cdot\log{\frac{1}{2}}-\frac{1}{2}\cdot\log{\frac{1}{2}} = 1\quad\text{bit} $$ El segundo modelo es obviamente mejor que la primera. Pero el aumento de la entropía.
Mi punto es que, debido a la arbitrariedad de la modelo que se está intentado, no podemos ciegamente decir una menor entropía indica un mejor modelo.
Alguien podría arrojar algo de luz sobre esto?