23 votos

Cómo entropía aumenta con el tamaño de la muestra

Para una distribución de probabilidad discreta, la entropía se define como: $$H(p) = \sum_i p(x_i) \log(p(x_i))$$ Estoy tratando de utilizar la entropía como una medida de la "plana / ruidosos" frente a "pico" es una distribución, donde los pequeños de la entropía corresponde a más "peakedness". Quiero usar un valor límite umbral para decidir que las distribuciones son "pico" y que son "planas". El problema con este enfoque es que para el "mismo" en forma de distribuciones, la entropía es diferente para diferentes tamaños de muestra! como un ejemplo sencillo tomar la distribución uniforme - es la entropía es: $$p_i = \frac{1}{n}\ \ \to \ \ H = \log n$$ Para empeorar las cosas, no parece ser una regla general para obtener más complejas distribuciones.

Entonces, la pregunta es:

¿Cómo debo normalizar la entropía lo que obtengo el mismo "a escala de la entropía" para la "misma" distribuciones independientemente del tamaño de la muestra?

18voto

Uso de la entropía normalizada:

$$H_n(p) = -\sum_i \frac{p_i \log_b p_i}{\log_b n}.$$

Para un vector $p_i = \frac{1}{n}\ \ \forall \ \ i = 1,...,n$, se maximiza la entropía de Shannon. Normalización de la entropía por $\log_b n$ da $H_n(p) \in [0, 1]$. Usted verá que esto es simplemente un cambio de base, por lo que uno puede soltar el término normalización y set $b = n$. Puedes leer más sobre entropía normalizada aquí y aquí.

6voto

jlupolt Puntos 369

Una respuesta parcial a título de referencia:

En resumen, el uso de la integral de la formulación de la entropía y pretender que la distribución discreta de muestreo es un proceso continuo.

Por lo tanto, crear una distribución continua $p(x)$ cuya integral es aproximada por la suma de Riemann de la $p_i$'s: $$\int_0^1 p(x)dx \sim \sum_i p_i\cdot \frac{1}{N} = 1$$ Esto significa que el $p_i$'s primero debe ser normalizada, de modo que $\sum_i p_i = N$.

Después de la normalización, calculamos la entropía: $$H=-\int_0^1 p(x)\log\left(p(x)\right)dx \sim -\sum_i p_i \log(p_i)\cdot \frac{1}{N}$$

Como $N\to \infty$ esto da una entropía que es el único relacionado con la distribución de forma y no depende de la $N$. Para las pequeñas $N$, la diferencia dependerá de cómo de buena es la suma de Riemann se aproxima a la de las integrales para determinado $N$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X