163 votos

Intuitiva explicación de la entropía?

Me he topado muchas veces en la entropía, pero nunca ha sido claro para mí por qué usamos esta fórmula:

Si $X$ es variable aleatoria, entonces la entropía es:

$$H(X) = \displaystyle\sum_{x} p(x)\log p(x).$$

¿Por qué estamos usando esta fórmula? ¿De dónde surgió esta fórmula? Estoy buscando la intuición. Es a causa de que esta función sólo pasa a tener algunos buenos analítico y práctico de las propiedades? Es simplemente porque funciona? ¿Dónde Shannon conseguir esto? Hizo sentarse bajo un árbol y la entropía cayó a su cabeza como hizo apple para Newton? = ) ¿Cómo interpreta usted esta cantidad en el mundo físico real?

Gracias por las explicaciones. =)

84voto

Matt Dawdy Puntos 5479

Aquí está uno ligeramente informal respuesta. Lo sorprendente es un evento? De manera informal, la menor probabilidad de que se ha asignado a un evento, el más sorprendente es que, para sorpresa parece ser algún tipo de disminución de la función de probabilidad. Es razonable pedir que se continua en la probabilidad. Y si el suceso $$ tiene un cierto grado de sorpresa, y evento $B$ tiene un cierto grado de sorpresa, y observar juntos, y son independientes, es razonable que la cantidad de sorpresa, añade.

De aquí se deduce que la sorpresa se siente en el evento de $Un$ sucediendo debe ser una constante positiva múltiplo de $- \log \mathbb{P}(A)$ (ejercicio; esto está relacionado con el de Cauchy funcional de la ecuación). Tomando por sorpresa a sólo $- \log \mathbb{P}(A)$, se deduce que la entropía de una variable aleatoria es su sorpresa esperada, o en otras palabras mide qué tan sorprendido que esperar a ser, en promedio, después de muestreo.

Estrechamente relacionado es Shannon de origen del teorema de codificación, si usted piensa de $- \log \mathbb{P}(A)$ como una medida de cuántos bits se necesitan para decirle a alguien que $a$ sucedido.

67voto

An.Ditlev Puntos 263

La entropía

Queremos definir una medida de la cantidad de información de una variable aleatoria discreta produce. Nuestra configuración básica se compone de una fuente de información y un destinatario. Podemos pensar de nuestro destinatario como estar en un cierto estado. Cuando la fuente de información envía un mensaje, la llegada del mensaje hace que el destinatario para ir a un estado diferente. Este cambio es exactamente lo que queremos medir.

Supongamos que tenemos un conjunto de eventos con probabilidades.

$p_1,p_2,...,p_n$

Queremos una medida de cuánto elección que debemos hacer, cómo incierto somos? Intuitivamente debería satisfacer los siguientes tres condiciones.

Deje que $H$ ser nuestra medida.

  1. $H$ es continua en cada $p_i$

  2. Si $p_1= p_2= ... = p_n$ I. E $p_i=1/n$ entonces $H$ es máxima (cuando cada resultado es igualmente como la incertidumbre es mayor y por lo tanto también lo es la entropía)

  3. Si una opción se divide en dos sucesivas de la opción el valor original de $H$ debe ser la suma ponderada del valor de los dos nuevos. Un ejemplo de condición 3 es que $H(1/2,1/3,1/6) = H(1/2,1/2) +1/2H(2/3,1/3)$

La única H satisfacer las condiciones arriba mencionadas. $H = −K\sum^n_{i=1}p_i log(pi)$

Para ver que esta definición nos da lo que intuitivamente se podría esperar de una 'medida' de información, hemos estado las siguientes propiedades de $H$.

  1. $H = 0$ ⇔ $p_i= 1$ y $p_j= 0∀j \neq i$
  2. $∀n ∈ N$ $H$ es máxima cuando el $p_1=,...,= p_n$
  3. Supongamos que $x$ y $y$ son 2 eventos con $x ∈ R^n$, $y ∈ R^m$ y $p(i,j)$ la probabilidad de articulación de las apariciones.

    • $H(x,y) = −\sum_{i,j}p(i,j)log(p(i,j))$

    • $H(x,y) ≤ H(x) + H(y)$ con la igualdad sólo si los eventos son independientes.

    • $H_x(y) = −\sum_{i,j}p_i(j)log(p_i(j))= H(x,y) − H(x).$ La entropía de y cuando x es se conoce.

    • $H(y) ≥ H_x(y)$, La entropía de y nunca es mayor al saber x.

  4. Cualquier cambio hacia la igualdad de las probabilidades aumenta $H$. Una mayor incertidumbre ⇒ mayor entropía.

30voto

Charlie Parker Puntos 570

Usted quería un intuitiva interpretación de la entropía $H(X)$ entropía. Permítanme compartir con ustedes una manera en que yo entiendo la entropía. Tenga en cuenta que mi explicación será bastante intuitivo en vez de con rigor matemático.

Permítanme empezar por dar mi interpretación de la primera y, a continuación, deje que me justifique.

La entropía puede considerarse como el costo de la codificación de una distribución específica de $X$.

Ya que voy a describir en términos de la codificación de los mensajes, me voy a cambiar la notación para hacer la descripción más intuitiva. Queremos transmitir algún mensaje $(M=m)$ a través de algún canal $C$. Intuitivamente, el costo de enviar un mensajes a través de un canal es la longitud de la codificación del mensaje $m$. es decir, el más largo es el mensaje, más nos costará enviar el mensaje ya que tenemos que enviar a más (bits) de información. La frecuencia (y la probabilidad de obtener cada mensaje está determinado por el lenguaje de $\mathcal{L}$, que llegó el mensaje. Por ejemplo, el lenguaje podría ser de $\mathcal{L} = inglés$, la palabra "el" es probable que sea relativamente común (es decir, de alta frecuencia y alta probabilidad) y por lo tanto, debemos elegir sabiamente cómo codificar esto, ya que tendrá que enviarlo muy a menudo (o en el caso de inglés, escribir es bastante bastante a menudo!). Por eso queremos una codificación eficiente para "el". Por eficiente, queremos que significa la elección de un tipo de codificación que sucede a elegir el menor número de "cosas" (o de la información, bits, etc) que tenemos que enviar a través del canal. Debido a que los mensajes que nos tienen que enviar son algo aleatorio, entonces parece razonable que queremos enviar la menor cantidad de bits que podemos, al menos en promedio. yo.e intuitivamente, queremos minimizar:

$$ E [a |M|] = \sum_m Pr[M=m]|m|$$

donde $|m|$ denota la longitud de la codificación del mensaje m.

Por ejemplo, podríamos codificar de esta manera: para el común (alta probabilidad) de mensajes permite usar menos cantidad de bits de información para codificar ellos, ya que tenemos que enviar a ellos muy a menudo. Por lo que podemos codificar ellos, en función de la frecuencia relativa dictada por la distribución de $\mathcal{L}$. Con un poco más de pensamiento que usted puede venir para arriba con la codificación Huffman o algún otro esquema similar, si usted asegurarse de que los mensajes pueden ser decodificados de forma inequívoca, la idea principal en mi opinión es codificar palabras frecuentes con código corto longitudes y poco frecuentes, con más de código de longitud.

Resulta que Shannon demostró que la noción de entropía proporciona un preciso límite inferior para el número esperado de bits necesarios para codificar instancias/mensajes de muestreo de $P(M)$. es decir, si consideramos que cualquier libro de códigos para los valores de $M \in \mathcal{L}$, entonces la espera longitud del código, en relación a la distribución de $P(M)$, no puede ser menor que la entropía $H(M)$:

$$H(M) \leq E [a|M|]$$

Ya que existe un esquema que hace que esta desigualdad apretado, entonces podemos esperar para codificar los mensajes $M$ tan eficientemente como sea posible (en promedio).

Así pues, volviendo a la interpretación que he sugerido. Desde entonces, el costo de la codificación de algo que puede ser pensado como el número de bits que tenemos que enviar a través de un canal, y el valor óptimo (entropía) se puede lograr, entonces la entropía se convierte en el costo esperado de la codificación de una distribución de mensajes.

(o si usted desea ver desde la perspectiva de las desigualdades, es el mejor/mínimo costo esperado puede tener para codificar cualquier distribución conocida de $P(M)$.)

10voto

Brad Puntos 437

Los tres postulados en Una.Ditlev la respuesta son las que se utilizan en Shannon original de 1948 en papel (pdf). Si usted saltar al Apéndice II en ese artículo, usted puede encontrar el resto de la derivación.

  1. Derivar la expresión de la $H(\tfrac{1}{n}, \tfrac{1}{n}, \ldots, \tfrac{1}{n})$ $- K \log n$.

  2. Si todos los $p_i$'s son racionales, podemos encontrar una $m$ tal que $m p_i \in \mathbb{N}, \forall i$. Ahora, el uso postulado 3 para derivar la fórmula de la entropía

  3. Mediante el postulado de la continuidad (primer postulado), se puede ampliar directamente la fórmula para el caso en que el $p_i$'s no son necesariamente racionales.

8voto

Sriram V Puntos 31

El significado físico de la información la entropía es: el número mínimo absoluto de almacenamiento de "bits" que se necesita para capturar la información.

Esto puede ser menos de lo que implica el número de diferentes valores que una variable puede tomar. Por ejemplo, una variable puede tomar en $4$ valores diferentes, pero si se adopta uno de estos valores con más frecuencia que los otros, entonces uno necesita menos de $\log(4)=2$ bits para almacenar la información, si elegimos una forma eficiente de almacenar la información.

Tenemos la entropía en términos de "bits" cuando la base del logaritmo de la ecuación de la entropía es de $2 dólares. Para algunos otros la tecnología, por ejemplo, algunos esotéricos de la memoria basados en tri-estado de los dispositivos, usaríamos el registro de la base $3$ en la ecuación de la entropía. Y así sucesivamente..

Para un detallado explicación de la intuición detrás de la entropía de Shannon ecuación, usted puede comprobar fuera de este documento: "La comprensión de la Entropía de Shannon métrico de la Información"

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X