7 votos

¿Qué significa $-p \ln p$ ¿significa si p es probabilidad?

En mecánica estadística, la entropía se define con la siguiente relación:

$$S=-k_B\sum_{i=1}^N p_i\ln p_i,$$

donde $p_i$ es la probabilidad de ocupar $i$ estado, y $N$ es el número de estados accesibles. Entiendo fácilmente lo que es la probabilidad: para un frecuentista es sólo la frecuencia media de obtener este resultado. Pero me cuesta entender intuitivamente qué es $-p_i \ln p_i$ significa. En el caso de que $p_i=p_j\; \forall i\ne j$ se reduce a $\ln N$ es decir, el logaritmo del número de estados accesibles.

Pero en el caso general de probabilidades desiguales, ¿qué hace $-p_i\ln p_i$ ¿representan realmente? ¿Es una especie de "(logaritmo del) número medio de estados accesibles"? O quizá sea más útil intentar comprender qué $p_i^{p_i}$ es (pero esto parece aún más difícil)?

0 votos

Un poco ingenuo (pero es lo mejor que puedo ofrecer): si tomas $M$ copias independientes de su sistema, con $M$ muy grande, tendrá $N^M$ estados posibles, pero sólo algunos de ellos tendrán una probabilidad razonablemente distinta de cero, a saber, aquellos en los que la frecuencia de cada $i$ está cerca de $p_i$ . Entonces $S$ es (el límite como $M\to\infty$ de) $1/M$ veces el logaritmo del número de estos estados.

0 votos

0 votos

¿Sabes lo que significa "valor esperado"?

5voto

HappyEngineer Puntos 111

Supongamos que quieres comprimir los resultados de una secuencia de ensayos independientes en una secuencia de bits.

Entonces la codificación "ideal" del resultado de los ensayos tendría $-\log_2 p_i$ bits para evento $i$ . Esto ocurre en el límite, a medida que el número de ensayos se aproxima a infinito.

Ahora bien, ¿cuál es el esperado ¿número de bits por prueba? Entonces, como es $-\log_2 p_i$ con probabilidad $p_i$ el resultado es $-\sum p_i\log_2 p_i$ . Es decir, si desea codificar $N$ ocurrencias de este evento, usted va a requerir, en promedio, $-N\sum p_i\log_2 p_i$ con su mejor codificación.

Esto se puede ver más idealmente cuando el $p_i$ son todos de la forma $\frac{1}{2^{k_i}}$ .

Por ejemplo, si $p_1=1/2, p_2=1/4, p_3=1/4$ entonces una codificación "ideal" tiene '0' para el evento $1$ , $10$ para el evento $2$ y $11$ para el evento $3$ . Entonces los bits esperados por ensayo son $\frac{1}{2}\cdot 1 + \frac{1}{4}\cdot 2+\frac{1}{4}\cdot 2 = -\sum p_i\log p_i=\frac{3}{2}$ . Esto significa que, con $N$ ensayos de este tipo, el número previsto de bits para almacenar los resultados será de $\frac{3}{2}N$ .

Así que la entropía también forma parte de lo que los matemáticos llaman "teoría de la información". Es decir, la entropía de un sistema indica cuánta información (esperada) se necesita para describir los resultados.

Ahora, si tus probabilidades no son tan buenas, entonces tendrías que codificar de forma más inteligente. Por ejemplo, si $p_1=p_2=p_3=\frac{1}{3}$ entonces no conseguirías un almacenamiento "ideal" almacenando los valores de uno en uno. Pero, digamos, si tomara cinco bits a la vez, podría almacenar tres resultados, ya que en $5$ bits, hay $32$ y, por lo tanto, podría almacenar cualquiera de los valores $27$ resultados de cada tirada. En $8$ bits, puede almacenar el resultado de $5$ ensayos. En $m$ bits, puede almacenar $\log_3(2^m)$ resultados. Así que para almacenar $n$ resultados, necesita $m$ bits con $\log_3(2^m)\geq n$ que es $$m\geq \frac{n}{\log_3 2} = n\log_2 3 = -n\sum p_i\log_2 p_i$$

Así que $-p_i\log p_i$ no es realmente lo significativo. Lo importante es almacenar el resultado $i$ en $-\log p_i$ bits. En general, si se almacena el evento $i$ como (una media de) $b_i$ bits, entonces el número "esperado" de bits en un solo ensayo sería:

$$\sum p_ib_i$$

Es que el ideal almacenamiento, que minimiza el número esperado de bits para un gran número de ensayos, es $b_i=-\log p_i$ .

0 votos

Observación a los lectores: el hecho de que ${-\log_2 p_i}$ para una codificación binaria es la longitud ideal se deduce de Teorema de Shannon sobre la codificación de fuentes . Véase también el codificación de entropía Página de Wikipedia y enlaces a la misma.

1voto

Jonas Puntos 329

Puedes pensar en $S=S(p)$ como la complejidad del sistema, y de $-p_i\log p_i$ tiene la "complejidad potencial" de un estado concreto, aunque no es habitual ver uno sin relación con los demás.

Una respuesta más conceptual es que todo está pensado para que la entropía de configuraciones independientes añade : esto se debe a que $f(x)=-x\log x$ es la única función no negativa, hasta un múltiplo escalar, que satisface $$ S(p*q)=S(p)+S(q),\quad \text{taking}\quad S(p)=\sum_{i=1}^Nf(p_i), $$ para todos $p$ y $q$ donde $p*q$ es el vector de probabilidad con el $N^2$ componentes $p_iq_j$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X