La entropía de Shannon es una cantidad que satisface un conjunto de relaciones.
En resumen, el logaritmo es para hacer que crezca linealmente con el tamaño del sistema y "se comporte como información".
El primero significa que la entropía de lanzar una moneda $n$ veces es $n$ veces la entropía de lanzar una moneda una vez:
$$ - \sum_{i=1}^{2^n} \frac{1}{2^n} \log\left(\tfrac{1}{2^n}\right) = - \sum_{i=1}^{2^n} \frac{1}{2^n} n \log\left(\tfrac{1}{2}\right) = n \left( - \sum_{i=1}^{2} \frac{1}{2} \log\left(\tfrac{1}{2}\right) \right) = n. $$
O simplemente para ver cómo funciona cuando se lanzan dos monedas diferentes (quizás desiguales, con cara con probabilidad $p_1$ y cruz $p_2$ para la primera moneda, y $q_1$ y $q_2$ para la segunda) $$ -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i q_j) = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \left( \log(p_i) + \log(q_j) \right) $$ $$ = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i) -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(q_j) = -\sum_{i=1}^2 p_i \log(p_i) - \sum_{j=1}^2 q_j \log(q_j) $$ por lo que las propiedades del logaritmo (el logaritmo de un producto es la suma de los logaritmos) son cruciales.
Pero también la entropía de Rényi tiene esta propiedad (es una entropía parametrizada por un número real $\alpha$, que se convierte en la entropía de Shannon para $\alpha \to 1$).
Sin embargo, aquí viene la segunda propiedad - la entropía de Shannon es especial, ya que está relacionada con la información. Para tener una sensación intuitiva, puedes observar $$ H = \sum_i p_i \log \left(\tfrac{1}{p_i} \right) $$ como el promedio de $\log(1/p)$.
Podemos llamar $\log(1/p)$ información. ¿Por qué? Porque si todos los eventos ocurren con una probabilidad $p$, significa que hay $1/p$ eventos. Para decir qué evento ha ocurrido, necesitamos usar $\log(1/p)$ bits (cada bit duplica la cantidad de eventos que podemos distinguir).
Puede que te sientas ansioso "OK, si todos los eventos tienen la misma probabilidad tiene sentido usar $\log(1/p)$ como medida de información. Pero si no lo son, ¿por qué promediar la información tiene sentido?" - y es una preocupación natural.
Pero resulta que sí tiene sentido - el teorema de codificación de fuente de Shannon dice que una cadena con letras no correlacionadas con probabilidades $\{p_i\}_i$ de longitud $n$ no puede comprimirse (en promedio) a una cadena binaria más corta que $n H$. Y de hecho, podemos usar la codificación Huffman para comprimir la cadena y acercarnos mucho a $n H$.
Ver también:
13 votos
Tú (o otros lectores) pueden disfrutar: A. Renyi (1961), Sobre medidas de entropía e información, Proc. del Cuarto Simposio de Berkeley sobre Estadística Matemática y Probabilidad, vol. 1, 547-561.
1 votos
Basado en tu reacción, supongo que lo que quieres decir es ¿por qué Shannon usó el logaritmo en su fórmula, verdad?
1 votos
@Ooker: Esa es una forma de expresarlo. "¿Por qué" lo puso? ¿Cuál es su función o rol? ¿Qué logra? ¿Cómo es útil? Para mí, todos estos están en el mismo vecindario...
0 votos
Mira mi respuesta aquí: stats.stackexchange.com/questions/66186/…
1 votos
Ver mi respuesta, creo que el significado de un logaritmo solo puede entenderse realmente examinando las raíces de la entropía de Shannon en la mecánica estadística.