Supongamos que quieres comprimir los resultados de una secuencia de ensayos independientes en una secuencia de bits.
Entonces la codificación "ideal" del resultado de los ensayos tendría $-\log_2 p_i$ bits para evento $i$ . Esto ocurre en el límite, a medida que el número de ensayos se aproxima a infinito.
Ahora bien, ¿cuál es el esperado ¿número de bits por prueba? Entonces, como es $-\log_2 p_i$ con probabilidad $p_i$ el resultado es $-\sum p_i\log_2 p_i$ . Es decir, si desea codificar $N$ ocurrencias de este evento, usted va a requerir, en promedio, $-N\sum p_i\log_2 p_i$ con su mejor codificación.
Esto se puede ver más idealmente cuando el $p_i$ son todos de la forma $\frac{1}{2^{k_i}}$ .
Por ejemplo, si $p_1=1/2, p_2=1/4, p_3=1/4$ entonces una codificación "ideal" tiene '0' para el evento $1$ , $10$ para el evento $2$ y $11$ para el evento $3$ . Entonces los bits esperados por ensayo son $\frac{1}{2}\cdot 1 + \frac{1}{4}\cdot 2+\frac{1}{4}\cdot 2 = -\sum p_i\log p_i=\frac{3}{2}$ . Esto significa que, con $N$ ensayos de este tipo, el número previsto de bits para almacenar los resultados será de $\frac{3}{2}N$ .
Así que la entropía también forma parte de lo que los matemáticos llaman "teoría de la información". Es decir, la entropía de un sistema indica cuánta información (esperada) se necesita para describir los resultados.
Ahora, si tus probabilidades no son tan buenas, entonces tendrías que codificar de forma más inteligente. Por ejemplo, si $p_1=p_2=p_3=\frac{1}{3}$ entonces no conseguirías un almacenamiento "ideal" almacenando los valores de uno en uno. Pero, digamos, si tomara cinco bits a la vez, podría almacenar tres resultados, ya que en $5$ bits, hay $32$ y, por lo tanto, podría almacenar cualquiera de los valores $27$ resultados de cada tirada. En $8$ bits, puede almacenar el resultado de $5$ ensayos. En $m$ bits, puede almacenar $\log_3(2^m)$ resultados. Así que para almacenar $n$ resultados, necesita $m$ bits con $\log_3(2^m)\geq n$ que es $$m\geq \frac{n}{\log_3 2} = n\log_2 3 = -n\sum p_i\log_2 p_i$$
Así que $-p_i\log p_i$ no es realmente lo significativo. Lo importante es almacenar el resultado $i$ en $-\log p_i$ bits. En general, si se almacena el evento $i$ como (una media de) $b_i$ bits, entonces el número "esperado" de bits en un solo ensayo sería:
$$\sum p_ib_i$$
Es que el ideal almacenamiento, que minimiza el número esperado de bits para un gran número de ensayos, es $b_i=-\log p_i$ .
0 votos
Un poco ingenuo (pero es lo mejor que puedo ofrecer): si tomas $M$ copias independientes de su sistema, con $M$ muy grande, tendrá $N^M$ estados posibles, pero sólo algunos de ellos tendrán una probabilidad razonablemente distinta de cero, a saber, aquellos en los que la frecuencia de cada $i$ está cerca de $p_i$ . Entonces $S$ es (el límite como $M\to\infty$ de) $1/M$ veces el logaritmo del número de estos estados.
0 votos
Relacionado: math.stackexchange.com/questions/331103/ y math.stackexchange.com/questions/663351/
0 votos
¿Sabes lo que significa "valor esperado"?
0 votos
@Omnomnomnom según tengo entendido, es el límite de las medias a medida que el número de ensayos llega a infinito.
0 votos
Para eventos $i$ con probabilidades $1=\sum_ip_i$ , $\eta_i:=-p_i\ln p_i$ es el información obtenida por evento $i$ sucediendo. Lo siento, no tengo referencias a mano.
0 votos
@Ruslan $-\ln p_i$ es la información obtenida si el $i$ y $\sum p_i(-\ln p_i)$ es la cantidad esperada de información obtenida