117 votos

¿Cuál es el papel del logaritmo en la entropía de Shannon?

La entropía de Shannon es el negativo de la suma de las probabilidades de cada resultado multiplicado por el logaritmo de las probabilidades de cada resultado. ¿Qué propósito sirve el logaritmo en esta ecuación?

¡Se otorgarán puntos extra a una respuesta intuitiva o visual (en lugar de una respuesta profundamente matemática)!

13 votos

Tú (o otros lectores) pueden disfrutar: A. Renyi (1961), Sobre medidas de entropía e información, Proc. del Cuarto Simposio de Berkeley sobre Estadística Matemática y Probabilidad, vol. 1, 547-561.

1 votos

Basado en tu reacción, supongo que lo que quieres decir es ¿por qué Shannon usó el logaritmo en su fórmula, verdad?

1 votos

@Ooker: Esa es una forma de expresarlo. "¿Por qué" lo puso? ¿Cuál es su función o rol? ¿Qué logra? ¿Cómo es útil? Para mí, todos estos están en el mismo vecindario...

73voto

Carl McTague Puntos 111

La entropía de Shannon es una cantidad que satisface un conjunto de relaciones.

En resumen, el logaritmo es para hacer que crezca linealmente con el tamaño del sistema y "se comporte como información".

El primero significa que la entropía de lanzar una moneda $n$ veces es $n$ veces la entropía de lanzar una moneda una vez:

$$ - \sum_{i=1}^{2^n} \frac{1}{2^n} \log\left(\tfrac{1}{2^n}\right) = - \sum_{i=1}^{2^n} \frac{1}{2^n} n \log\left(\tfrac{1}{2}\right) = n \left( - \sum_{i=1}^{2} \frac{1}{2} \log\left(\tfrac{1}{2}\right) \right) = n. $$

O simplemente para ver cómo funciona cuando se lanzan dos monedas diferentes (quizás desiguales, con cara con probabilidad $p_1$ y cruz $p_2$ para la primera moneda, y $q_1$ y $q_2$ para la segunda) $$ -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i q_j) = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \left( \log(p_i) + \log(q_j) \right) $$ $$ = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i) -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(q_j) = -\sum_{i=1}^2 p_i \log(p_i) - \sum_{j=1}^2 q_j \log(q_j) $$ por lo que las propiedades del logaritmo (el logaritmo de un producto es la suma de los logaritmos) son cruciales.

Pero también la entropía de Rényi tiene esta propiedad (es una entropía parametrizada por un número real $\alpha$, que se convierte en la entropía de Shannon para $\alpha \to 1$).

Sin embargo, aquí viene la segunda propiedad - la entropía de Shannon es especial, ya que está relacionada con la información. Para tener una sensación intuitiva, puedes observar $$ H = \sum_i p_i \log \left(\tfrac{1}{p_i} \right) $$ como el promedio de $\log(1/p)$.

Podemos llamar $\log(1/p)$ información. ¿Por qué? Porque si todos los eventos ocurren con una probabilidad $p$, significa que hay $1/p$ eventos. Para decir qué evento ha ocurrido, necesitamos usar $\log(1/p)$ bits (cada bit duplica la cantidad de eventos que podemos distinguir).

Puede que te sientas ansioso "OK, si todos los eventos tienen la misma probabilidad tiene sentido usar $\log(1/p)$ como medida de información. Pero si no lo son, ¿por qué promediar la información tiene sentido?" - y es una preocupación natural.

Pero resulta que sí tiene sentido - el teorema de codificación de fuente de Shannon dice que una cadena con letras no correlacionadas con probabilidades $\{p_i\}_i$ de longitud $n$ no puede comprimirse (en promedio) a una cadena binaria más corta que $n H$. Y de hecho, podemos usar la codificación Huffman para comprimir la cadena y acercarnos mucho a $n H$.

Ver también:

13 votos

Esta respuesta tiene muchos detalles interesantes, pero desde el punto de vista de un lego, aún evita el problema - ¿cuál es el papel del logaritmo? ¿Por qué no podemos calcular la entropía sin el logaritmo?

11 votos

@histelheim ¿Qué quieres decir con "sin el logaritmo"? $\sum_i p_i$ es solo uno. Si deseas otra medida de diversidad sin $\log$, mira los índices de diversidad - por ejemplo, el llamado Índice Inverso de Simpson $1/\sum_i p_i^2$ que indica el número efectivo de opciones (uno sobre la probabilidad promedio), también tienes el Índice de Gini-Simpson $1-\sum_i p_i^2$ que siempre está entre 0 y uno. Y si no te importan las propiedades sutiles relacionadas con la información de la entropía de Shannon, puedes usar cualquiera de ellos (aunque ponderan de manera diferente las probabilidades bajas y altas).

14 votos

Estoy perplejo con tu último comentario, Histelheim: ¿a qué podría referirse "entropía sin el logaritmo"? Eso sugiere que aún no has articulado claramente tu pregunta, porque suena como si tuvieras algún concepto no expresado de "entropía" en mente. Por favor, no nos dejes con la duda, edita tu pregunta para que tus lectores puedan brindar los tipos de respuestas que estás buscando.

36voto

Ankur Loriya Puntos 160

Esto es lo mismo que las otras respuestas, pero creo que la mejor manera de explicarlo es ver lo que dice Shannon en su paper original.

La medida logarítmica es más conveniente por varias razones:

  1. Es prácticamente más útil. Parámetros de importancia en ingeniería como el tiempo, ancho de banda, número de relés, etc., tienden a variar linealmente con el logaritmo del número de posibilidades. Por ejemplo, agregar un relé a un grupo duplica el número de estados posibles de los relés. Agrega 1 al logaritmo en base 2 de este número. Duplicar el tiempo aproximadamente cuadra el número de mensajes posibles, o duplica el logaritmo, etc.
  2. Está más cerca de nuestro sentimiento intuitivo como medida adecuada. Esto está estrechamente relacionado con (1) ya que intuitivamente medimos entidades mediante comparaciones lineales con estándares comunes. Uno siente, por ejemplo, que dos tarjetas perforadas deberían tener el doble de capacidad que una para almacenamiento de información, y dos canales idénticos el doble de capacidad que uno para transmitir información.
  3. Es matemáticamente más adecuado. Muchas de las operaciones de límite son simples en términos del logaritmo pero requerirían una reformulación torpe en términos del número de posibilidades.

Fuente: Shannon, Una Teoría Matemática de la Comunicación (1948) [pdf].


Cabe destacar que la entropía de Shannon coincide con la entropía de Gibbs de la mecánica estadística, y también hay una explicación de por qué aparece el logaritmo en la entropía de Gibbs. En la mecánica estadística, la entropía se supone que es una medida del número de posibles estados $\Omega$ en los que un sistema puede encontrarse. La razón por la que $\log \Omega$ es mejor que $\Omega$ es porque $\Omega$ suele ser una función muy rápida de crecimiento de sus argumentos, y por lo tanto no se puede aproximar útilmente mediante una expansión de Taylor, mientras que $\log \Omega$ sí se puede. (No sé si esta fue la motivación original para tomar el logaritmo, pero se explica de esta manera en muchos libros de física introductoria.)

0 votos

Esta respuesta parece ser la más centrada y a la vez informativa.

1 votos

Esto no es por qué aparece el registro en el cálculo de la entropía. Esto es por qué la información informada se informa como tal. Hay una cantidad alternativa: la "perplejidad" que informa información sin el logaritmo. En esta parte de su artículo, Shannon está argumentando a favor de bits/nats/hartleys, y en contra de la perplejidad.

0 votos

@NeilG Realmente me gusta lo que dice Flounderer de que la entropía se supone que mide diferentes estados del sistema, es decir, $\Omega$, entonces ¿por qué no podemos simplemente definir la entropía por el número de estados que el sistema puede tomar? Es decir, la entropía de un dado debería ser simplemente 6 y la entropía de una moneda debería ser 2, etc. Tiene sentido intuitivo. ¿Por qué transformar el logaritmo? Esta transformación tiene sentido si usas cierto "medio" para diferenciar los eventos, digamos un medio de dígitos binarios o bits, pero, en esencia, ¿por qué deberíamos definir la entropía creando algún medio arbitrario y usar ese medio para diferenciar los eventos? En un medio binario, 1 bit será [continuado]

23voto

Brian Rasmussen Puntos 68853

Otra forma de ver esto es desde un punto de vista algorítmico. Imagina que vas a adivinar un número $x$, que la única información que tienes es que este número está en el intervalo $1 \leq x \leq N$. En esta situación, el algoritmo óptimo para adivinar el número es un sencillo algoritmo de búsqueda binaria, que encuentra $x$ en orden $O(\log_2N)$. Esta fórmula dice intuitivamente cuántas preguntas necesitas hacer para saber cuál es $x$. Por ejemplo, si $N=8$, necesitas hacer un máximo de 3 preguntas para encontrar el $x$ desconocido.

Desde la perspectiva probabilística, cuando declaras que $x$ tiene igual probabilidad de ser cualquier valor en el rango $1 \leq x \leq N$, significa que $p(x) = 1/N$ para $1 \leq x \leq N. Claude Shannon demostró que el contenido de información de un resultado $x$ se define como:

\begin{equation} h(x) = \log_2 \frac{1}{p(x)} \end{equation}

La razón del 2 en el logaritmo es que estamos midiendo la información en bits. También puedes asumir el logaritmo natural para medir la información en nats. Como ejemplo, el contenido de información del resultado $x=4$ es $h(4) = 3$. Este valor es precisamente igual al número de pasos en el algoritmo de búsqueda binaria (o el número de declaraciones IF en el algoritmo). Por lo tanto, el número de preguntas que necesitas para descubrir que $x$ es igual a $4$, es exactamente el contenido de información del resultado $x=4$.

También podemos analizar el rendimiento del algoritmo de búsqueda binaria para cualquier resultado posible. Una forma de hacerlo es descubrir cuál es el número de preguntas esperado que se harán para cualquier valor de $x. Observa que el número de preguntas requeridas para adivinar un valor de $x$, como discutí anteriormente, es $h(x)$. Por lo tanto, el número esperado de preguntas para cualquier $x$ es, por definición, igual a:

\begin{equation} \langle h(x) \rangle = \sum_{1 \leq x \leq N} p(x) h(x) \end{equation}

El número esperado de preguntas $\langle h(x) \rangle$ es igual a la entropía de un conjunto $H(X)$, o entropía en resumen. Por lo tanto, podemos concluir que la entropía $H(X)$ cuantifica el número esperado (o promedio) de preguntas que uno necesita hacer para adivinar un resultado, que es la complejidad computacional del algoritmo de búsqueda binaria.

1 votos

Esta es una de mis aplicaciones favoritas de la teoría de la información - el análisis de algoritmos. Si tienes puntos de decisión con >2 resultados, como cuando indexas un arreglo, ese es el principio detrás del hash coding y ordenamientos O(n).

0 votos

Este argumento es válido para la entropía discreta, pero no se generaliza fácilmente a la entropía continua.

0 votos

@NeilG Sí lo hace, pero el número de preguntas simplemente se vuelve infinito. Esta interpretación es para mí la más sensata, ya que fundamenta la teoría de la información en una aplicación del mundo real: "¿cuántas preguntas de sí/no necesito responder X?".

14voto

kyle Puntos 274

Aquí tienes una explicación improvisada. ¿Podrías decir que 2 libros del mismo tamaño tienen el doble de información que 1 libro, verdad? (Considerando que un libro es una cadena de bits.) Bueno, si un cierto resultado tiene una probabilidad de P, entonces podrías decir que su contenido de información es aproximadamente el número de bits que necesitas para escribir 1/P. (por ejemplo, si P=1/256, eso son 8 bits.) Entropía es simplemente el promedio de esa longitud de bits de información, sobre todos los resultados.

7voto

Matt Campbell Puntos 788

El propósito de $\log(p_i)$ que aparece en la Entropía de Shannon es que $\log(p_i)$ es la única función que satisface el conjunto básico de propiedades que la función de entropía, $H(p_1, \ldots ,p_N)$, se supone que incorpora.

Shannon proporcionó una prueba matemática de este resultado que ha sido ampliamente examinada y ampliamente aceptada. Por lo tanto, el propósito y la importancia del logaritmo en la ecuación de entropía se encuentran contenidos dentro de las suposiciones y la prueba.

Esto no significa que sea fácil de entender, pero es en última instancia la razón por la que aparece el logaritmo.

He encontrado útiles las siguientes referencias además de las mencionadas en otros lugares:

  1. Teoría de la probabilidad: La lógica de la ciencia por E.T. Jaynes. Jaynes es uno de los pocos autores que derivan muchos resultados desde cero; ver el Capítulo 11.
  2. Teoría de la información, inferencia y algoritmos de aprendizaje por David MacKay. Contiene un análisis profundo del teorema de codificación de fuente de Shannon; ver el Capítulo 4.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X