Tengo una pregunta sobre la teoría de la información. Entre los datos limpios y los datos ruidosos, ¿cuál tiene mayor entropía? Creo que los datos ruidosos la tienen, ¿estoy en lo cierto? Pero, los datos ruidosos no tienen más información que los datos limpios, sólo contienen más ruido.
Respuestas
¿Demasiados anuncios?La diapositiva 5 de esta conferencia resume en detalle la noción de entropía: http://www.cs.nyu.edu/~mohri/mls/lecture_14.pdf
La idea clave es que la entropía es una medida de la incertidumbre de $X$ . Por lo tanto, más ruido aumenta la incertidumbre y, por lo tanto, aumenta la entropía.
Obsérvese que la entropía es máxima para una distribución uniforme (es decir, ruido completo):
$\newcommand{\E}{{\rm I\kern-.3em E}}$
$$ H(x) = \E\Bigg[\log\frac{1}{p(X)}\Bigg] \leq \log \E \Bigg[\frac{1}{p(X)}\Bigg] = \log N $$
La desigualdad se deduce de la desigualdad de Jensen. Supone un soporte finito.