55 votos

¿Por qué se maximiza la entropía cuando la distribución de probabilidad es uniforme?

Sé que la entropía es la medida de la aleatoriedad de un proceso/variable y se puede definir así. para una variable aleatoria $X \in$ set $A$ :- $H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) $ . En el libro sobre Entropía y Teoría de la Información de MacKay, éste proporciona esta afirmación en el capítulo 2

La entropía se maximiza si p es uniforme.

Intuitivamente, soy capaz de entenderlo, como si todos los puntos de datos del conjunto $A$ se eligen con la misma probabilidad $1/m$ ( $m$ siendo la cardinalidad del conjunto $A$ ), entonces la aleatoriedad o la entropía aumenta. Pero si sabemos que algunos puntos del conjunto $A$ van a ocurrir con más probabilidad que otros (digamos en el caso de la distribución normal, donde la máxima concentración de puntos de datos está alrededor de la media y la pequeña área de desviación estándar alrededor de ella, entonces la aleatoriedad o entropía debería disminuir.

¿Pero hay alguna prueba matemática de esto? Como la ecuación para $H(X)$ Lo diferencio con respecto a $p(x)$ y ponerlo a 0 o algo así.

Por otro lado, ¿hay alguna conexión entre la entropía que se produce en la teoría de la información y los cálculos de entropía en química (termodinámica)?

38voto

Heurísticamente, la función de densidad de probabilidad en $\{x_1, x_2,..,.x_n\}$ con la máxima entropía resulta ser la que corresponde al menor conocimiento de $\{x_1, x_2,..,.x_n\}$ En otras palabras, la distribución Uniforme.

Ahora, para una prueba más formal considere lo siguiente:

Una función de densidad de probabilidad sobre $\{x_1, x_2,..,.x_n\}$ es un conjunto de números reales no negativos $p_1,...,p_n$ que suman 1. La entropía es una función continua del $n$ -tuplas $(p_1,...,p_n)$ y estos puntos se encuentran en un subconjunto compacto de $\mathbb{R}^n$ , por lo que hay un $n$ -tupla en la que se maximiza la entropía. Queremos demostrar que esto ocurre en $(1/n,...,1/n)$ y en ningún otro lugar.

Supongamos que el $p_j$ no son todos iguales, digamos $p_1 < p_2$ . (Claramente $n\neq 1$ .) Encontraremos una nueva densidad de probabilidad con mayor entropía. Entonces se deduce, ya que la entropía se maximiza en algún $n$ -que la entropía se maximiza de forma única en el $n$ -tupla con $p_i = 1/n$ para todos $i$ .

Desde $p_1 < p_2$ para los pequeños positivos $\varepsilon$ tenemos $p_1 + \varepsilon < p_2 -\varepsilon$ . La entropía de $\{p_1 + \varepsilon, p_2 -\varepsilon,p_3,...,p_n\}$ menos la entropía de $\{p_1,p_2,p_3,...,p_n\}$ es igual a

$$-p_1\log\left(\frac{p_1+\varepsilon}{p_1}\right)-\varepsilon\log(p_1+\varepsilon)-p_2\log\left(\frac{p_2-\varepsilon}{p_2}\right)+\varepsilon\log(p_2-\varepsilon)$$ Para completar la prueba, queremos demostrar que esto es positivo para un tamaño suficientemente pequeño $\varepsilon$ . Reescribe la ecuación anterior como $$-p_1\log\left(1+\frac{\varepsilon}{p_1}\right)-\varepsilon\left(\log p_1+\log\left(1+\frac{\varepsilon}{p_1}\right)\right)-p_2\log\left(1-\frac{\varepsilon}{p_2}\right)+\varepsilon\left(\log p_2+\log\left(1-\frac{\varepsilon}{p_2}\right)\right)$$

Recordando que $\log(1 + x) = x + O(x^2)$ para los pequeños $x$ la ecuación anterior es $$-\varepsilon-\varepsilon\log p_1 + \varepsilon + \varepsilon \log p_2 + O(\varepsilon^2) = \varepsilon\log(p_2/p_1) + O(\varepsilon^2)$$ que es positivo cuando $\varepsilon$ es lo suficientemente pequeño ya que $p_1 < p_2$ .

Una prueba menos rigurosa es la siguiente:

Consideremos primero el siguiente lema:

Dejemos que $p(x)$ y $q(x)$ sean funciones de densidad de probabilidad continuas en un intervalo $I$ en los números reales, con $p\geq 0$ y $q > 0$ en $I$ . Tenemos $$-\int_I p\log p dx\leq -\int_I p\log q dx$$ si ambas integrales existen. Además, hay igualdad si y sólo si $p(x) = q(x)$ para todos $x$ .

Ahora, dejemos que $p$ sea cualquier función de densidad de probabilidad sobre $\{x_1,...,x_n\}$ con $p_i = p(x_i)$ . Dejar $q_i = 1/n$ para todos $i$ , $$-\sum_{i=1}^n p_i\log q_i = \sum_{i=1}^n p_i \log n=\log n$$ que es la entropía de $q$ . Por lo tanto, nuestro lema dice $h(p)\leq h(q)$ con igualdad si y sólo si $p$ es uniforme.

Además, la wikipedia tiene una breve discusión sobre esto también: wiki

21voto

Aksakal Puntos 11351

La entropía en física y la teoría de la información no están desvinculadas. Son más diferentes de lo que el nombre sugiere, pero está claro que hay un vínculo entre ellas. El propósito de la métrica de la entropía es medir la cantidad de información. Véase mi respuesta con gráficos aquí para mostrar cómo la entropía cambia de una distribución uniforme a una jorobada.

La razón por la que la entropía se maximiza para una distribución uniforme es porque fue diseñada así. Sí, estamos construyendo una medida para la falta de información por lo que queremos asignar su valor más alto a la distribución menos informativa.

Ejemplo. Te pregunté " Tío, ¿dónde está mi coche? ?" Su respuesta es "está en algún lugar de EEUU entre los océanos Atlántico y Pacífico". Este es un ejemplo de la distribución uniforme. Mi coche podría estar en cualquier lugar de EEUU. No obtuve mucha información de esta respuesta.

Sin embargo, si me dices "he visto tu coche hace una hora en la Ruta 66 en dirección a Washington, DC", ya no es una distribución uniforme. Es más probable que el coche esté a 60 millas de distancia de DC, que cerca de Los Ángeles. Está claro que hay más información aquí.

Por lo tanto, nuestra medida debe tener una entropía alta para la primera respuesta y más baja para la segunda. La uniforme debe ser la distribución menos informativa, es básicamente la respuesta "no tengo ni idea".

11voto

MIL-SPEC Puntos 101

El argumento matemático se basa en la desigualdad de Jensen para funciones cóncavas. Es decir, si $f(x)$ es una función cóncava sobre $[a,b]$ y $y_1, \ldots y_n$ son puntos en $[a,b]$ Entonces: $n \cdot f(\frac{y_1 + \ldots y_n}{n}) \geq f(y_1) + \ldots + f(y_n)$

Aplique esto para la función cóncava $f(x) = -x \log(x)$ y la desigualdad de Jensen para $y_i = p(x_i)$ y tienes la prueba. Tenga en cuenta que $p(x_i)$ definen una distribución de probabilidad discreta, por lo que su suma es 1. Lo que se obtiene es $log(n) \geq \sum_{i=1}^n - p(x_i) log(p(x_i))$ con igualdad para la distribución uniforme.

5voto

kaslusimoes Puntos 21

Por otro lado, ¿hay alguna conexión entre la entropía que se produce en la teoría de la información y los cálculos de entropía en química (termodinámica)?

Sí, lo hay. Puede ver el trabajo de Jaynes y muchos otros que siguieron su obra (como aquí y aquí por ejemplo).

Pero la idea principal es que mecánica estadística (y otros campos de la ciencia, también) puede ser visto como el inferencia que hacemos sobre el mundo .

Como lectura adicional recomendaría El libro de Ariel Caticha sobre este tema.

4voto

robjohn Puntos 111

Cálculo de Variaciones

Para manejar las funciones variables, haremos uso de la función Cálculo de Variaciones . La variación $\delta f(x)$ se refiere a una tasa de cambio de $f(x)$ con respecto al "tiempo". Es decir, $\delta$ funciona como una derivada parcial con respecto al "tiempo". Por ejemplo, $$ \begin{align} \delta(\log(f(x))f(x)) &=\left(\frac1{f(x)}f(x)+\log(f(x))\right)\delta f(x)\\ &=(1+\log(f(x)))\,\delta f(x) \end{align} $$ simplemente dice que la tasa de cambio de $\log(f(x))f(x)$ es $(1+\log(f(x)))$ veces la tasa de cambio de $f(x)$ .


Maximizar la entropía

Consideremos la familia de distribuciones de probabilidad continuas $f$ en $[a,b]$ es decir, positivo $f$ donde $$ \int_a^bf(x)\,\mathrm{d}x=1\tag1 $$ Definir la entropía de $f$ para ser $$ -\int_a^b\log(f(x))f(x)\,\mathrm{d}x\tag2 $$ Si queremos maximizar $(2)$ para todas las distribuciones que satisfacen $(1)$ necesitamos encontrar todos los $f$ para que $(2)$ es estacionario; es decir, $\delta$ de la integral en $(2)$ desaparece: $$ -\int_a^b(1+\log(f(x))\,\delta f(x)\,\mathrm{d}x=0\tag3 $$ para todas las variaciones, $\delta f$ , donde $(1)$ es estacionario; es decir, $\delta$ de la integral en $(1)$ desaparece: $$ \int_a^b\color{#C00}{1}\,\delta f(x)\,\mathrm{d}x=0\tag4 $$ $(3)$ , $(4)$ y ortogonalidad (ecuaciones $(3)$ y $(4)$ dicen que $\color{#C00}{1}$ y $1+\log(f(x))$ son ortogonales a todas las mismas variaciones; véase el enlace para más detalles) requieren que haya una $c_0$ para que $$ 1+\log(f(x))=c_0\cdot\color{#C00}{1}\tag5 $$ Es decir, la distribución deseada es constante; es decir, $$ \bbox[5px,border:2px solid #C0A000]{f(x)=\frac1{b-a}}\tag6 $$


Densidades que desaparecen

Tenga en cuenta que en $(3)$ , $-(1+\log(f(x)))\to\infty$ como $f(x)\to0$ . Esto no causa un problema en $(2)$ desde $-\log(f(x))f(x)$ está limitada por $\frac1e$ . Hay algunas formas sencillas de superar el problema en $(3)$ .

  1. Podemos utilizar $\delta f(x)=f(x)\,\delta\log(f(x))$ y utilizan variaciones de $\log(x)$ . Entonces $(5)$ se convierte en $$ (1+\log(f(x)))f(x)=c_0f(x) $$ y ambos lados desaparecen cuando $f(x)=0$ .

  2. Podemos restringir $f(x)\gt0$ y sólo considerar $f(x)=0$ como caso límite en el cierre.

  3. Tenga en cuenta que para $f(x)\approx0$ , $-(1+\log(f(x)))$ es enorme. Eso significa que para maximizar $(2)$ Cualquier lugar en el que $f(x)\approx0$ queremos $\delta f(x)$ sea positivo, de modo que $-\int_a^b(1+\log(f(x)))\delta f(x)\,\mathrm{d}x$ aumenta. Es decir, ninguna función maximizadora tendrá $f(x)=0$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X