En la definición de conjuntos típicos conjuntos (en "Elementos de la teoría de la información", cap. 7.6, p. 195), utilizamos
$$-\frac{1}{n} \log{p(x^n)}$$ como el entropía empírica de un $n$ -secuencia con $p(x^n) = \prod_{i=1}^{n}{p(x_i)}$ . Nunca me había encontrado con esta terminología. No está definida explícitamente en ninguna parte según el índice del libro.
Mi pregunta es básicamente: ¿Por qué la entropía empírica no es $-\sum_{x}{\hat p (x) \log(\hat p(x))}$ donde $\hat p(x)$ es la distribución empírica?
¿Cuáles son las diferencias y similitudes más interesantes entre estas dos fórmulas? (en términos de propiedades que comparten/no comparten).