7 votos

Número de muestras necesarias para la estimación de la entropía

Me gustaría estimar la entropía de una fuente que genera vectores binarios de longitud M que son muy escasos (solo unos pocos), usando el estimador ingenuo (empírico)$\hat{H}=-\sum\hat{p}(x)\log\hat{p}(x)$.

¿Hay algún resultado en la cantidad de muestras necesarias para hacer esto con cierta precisión, o de manera equivalente, el error al calcular este valor dado el número finito de muestras?

4voto

Jacob Puntos 31

La entropía de estimación es sorprendentemente difícil problema. La cuestión fundamental es que su presupuesto está fuertemente sesgada por el "no" de los eventos (que, sin embargo, tienen un valor distinto de cero probabilidad).

Hay muy pocas entropía estimadores diseñado específicamente para abordar este problema. Por ejemplo, vea el BUB esimator por Liam Paninski, el NSB estimador por Nemenman et al, la cobertura ajustado estimador por Vu et al (ver también Chao et al, 2003), y la PYM estimador por Archer et al.

Hay muchos otros trabajos que abordan el problema. Cada uno tiene un enfoque algo diferente, y algunos pueden ser más apropiados en diferentes situaciones. Varios de los papeles que me sugieren proporcionar acceso gratuito en línea del código que calcula automáticamente una estimación y medida de confianza. Usted también podría estar interesado en este y el paquete de R 'entropía'.

3voto

Carl McTague Puntos 111

Usted necesidad de aplicar el estándar de la propagación de la incertidumbre (en el no-lineales caso) a la distribución de Poisson (es decir, suponiendo que cuentan cada uno es independiente).

Es decir, usted necesita para expandir $H(p_1+\Delta p_1, \ldots, p_n + \Delta p_n)$ en serie de Taylor de $n$ variables$(\Delta p_1,\ldots ,\Delta p_n)$$(0,\ldots, 0)$, es decir: $$H(p_1+\Delta p_1, \ldots, p_n + \Delta p_n) =H(p_1,\ldots,p_n)-\frac{1}{\ln2}\sum_{i=1}^n (\ln p_i+1)\Delta p_i -\frac{1}{2\ln2} \sum_{i=1}^n p_i^{-1} \Delta p_i^2 + \ldots$$

Recordar que $p_i = \frac{N_i}{N}$ y el cálculo de los momentos apropiados para tantas condiciones como se desee.

Sin embargo, no funciona en torno a $p_i=0$, ya que no tiene expansión de Taylor aquí. En tales casos, la única posibilidad que yo sé es de Monte Carlo para estimar los parámetros de las distribuciones, tomar distribuciones aleatorias y, a continuación, tome al azar los resultados de acuerdo con ellos y mirar a la distribución de los resultados (aquí: la entropía).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X