Heurísticamente, la función de densidad de probabilidad en $\{x_1, x_2,..,.x_n\}$ con la máxima entropía resulta ser la que corresponde al menor conocimiento de $\{x_1, x_2,..,.x_n\}$ En otras palabras, la distribución Uniforme.
Ahora, para una prueba más formal considere lo siguiente:
Una función de densidad de probabilidad sobre $\{x_1, x_2,..,.x_n\}$ es un conjunto de números reales no negativos $p_1,...,p_n$ que suman 1. La entropía es una función continua del $n$ -tuplas $(p_1,...,p_n)$ y estos puntos se encuentran en un subconjunto compacto de $\mathbb{R}^n$ , por lo que hay un $n$ -tupla en la que se maximiza la entropía. Queremos demostrar que esto ocurre en $(1/n,...,1/n)$ y en ningún otro lugar.
Supongamos que el $p_j$ no son todos iguales, digamos $p_1 < p_2$ . (Claramente $n\neq 1$ .) Encontraremos una nueva densidad de probabilidad con mayor entropía. Entonces se deduce, ya que la entropía se maximiza en algún $n$ -que la entropía se maximiza de forma única en el $n$ -tupla con $p_i = 1/n$ para todos $i$ .
Desde $p_1 < p_2$ para los pequeños positivos $\varepsilon$ tenemos $p_1 + \varepsilon < p_2 -\varepsilon$ . La entropía de $\{p_1 + \varepsilon, p_2 -\varepsilon,p_3,...,p_n\}$ menos la entropía de $\{p_1,p_2,p_3,...,p_n\}$ es igual a
$$-p_1\log\left(\frac{p_1+\varepsilon}{p_1}\right)-\varepsilon\log(p_1+\varepsilon)-p_2\log\left(\frac{p_2-\varepsilon}{p_2}\right)+\varepsilon\log(p_2-\varepsilon)$$ Para completar la prueba, queremos demostrar que esto es positivo para un tamaño suficientemente pequeño $\varepsilon$ . Reescribe la ecuación anterior como $$-p_1\log\left(1+\frac{\varepsilon}{p_1}\right)-\varepsilon\left(\log p_1+\log\left(1+\frac{\varepsilon}{p_1}\right)\right)-p_2\log\left(1-\frac{\varepsilon}{p_2}\right)+\varepsilon\left(\log p_2+\log\left(1-\frac{\varepsilon}{p_2}\right)\right)$$
Recordando que $\log(1 + x) = x + O(x^2)$ para los pequeños $x$ la ecuación anterior es $$-\varepsilon-\varepsilon\log p_1 + \varepsilon + \varepsilon \log p_2 + O(\varepsilon^2) = \varepsilon\log(p_2/p_1) + O(\varepsilon^2)$$ que es positivo cuando $\varepsilon$ es lo suficientemente pequeño ya que $p_1 < p_2$ .
Una prueba menos rigurosa es la siguiente:
Consideremos primero el siguiente lema:
Dejemos que $p(x)$ y $q(x)$ sean funciones de densidad de probabilidad continuas en un intervalo $I$ en los números reales, con $p\geq 0$ y $q > 0$ en $I$ . Tenemos $$-\int_I p\log p dx\leq -\int_I p\log q dx$$ si ambas integrales existen. Además, hay igualdad si y sólo si $p(x) = q(x)$ para todos $x$ .
Ahora, dejemos que $p$ sea cualquier función de densidad de probabilidad sobre $\{x_1,...,x_n\}$ con $p_i = p(x_i)$ . Dejar $q_i = 1/n$ para todos $i$ , $$-\sum_{i=1}^n p_i\log q_i = \sum_{i=1}^n p_i \log n=\log n$$ que es la entropía de $q$ . Por lo tanto, nuestro lema dice $h(p)\leq h(q)$ con igualdad si y sólo si $p$ es uniforme.
Además, la wikipedia tiene una breve discusión sobre esto también: wiki