1 votos

Cómo utilizar correctamente la entropía conjunta

Actualmente estoy leyendo Elementos de la teoría de la información y estoy un poco confundido cuando se trata de la entropía conjunta. El libro proporciona dos definiciones distintas para ella:

$$H(X,Y) = -\sum_{x X} \sum_{yY} \,p(x,y)\,log\,p(x,y)$$

donde p(x,y) es la función de masa de probabilidad para x e y.

La otra versión es:

$$H(X,Y) = H(X) + H(Y|X)$$

Además, la entropía condicional se define como

$$H(Y|X) = \sum_{x X} p(x)H(Y|X=x)$$

Al principio me pareció bien, pero cuando intento aplicar estos métodos al mismo problema obtengo resultados diferentes. Ejemplo:

Supongamos que se lanza un dado justo. Sea X el número que queda hacia arriba después del lanzamiento. Además, Y denota si X es par o impar. Calcule H(XY).

Ahora, a menos que esté completamente apagado, $p(x,y)$ en este caso sería $\frac 1 6$ porque la probabilidad de obtener impar o par depende del número que esté orientado hacia arriba. Por lo tanto cuando intento el método del puño obtengo:

$$H(XY) =-(\frac 1 6 log\frac 1 6 + \frac 1 6 log\frac 1 6 + \frac 1 6 log\frac 1 6 + \frac 1 6 log\frac 1 6 + \frac 1 6 log\frac 1 6 + \frac 1 6 log\frac 1 6) = log6$$

Supongamos ahora que quiero intentar verificar esto utilizando la segunda fórmula. Por cierto, $H(X)$ es exactamente igual a $H(XY)$ y $H(Y|X)$ es:

$$H(Y|X) = \\-(\frac 1 6 * ( -\frac 1 2log\,\frac 1 2 -\frac 1 2log\frac 1 2) +\\ \frac 1 6 * ( -\frac 1 2log\,\frac 1 2 -\frac 1 2log\frac 1 2)+\\\frac 1 6 * ( -\frac 1 2log\,\frac 1 2 -\frac 1 2log\frac 1 2)+\\\frac 1 6 * ( -\frac 1 2log\,\frac 1 2 -\frac 1 2log\frac 1 2)+\\\frac 1 6 * ( -\frac 1 2log\,\frac 1 2 -\frac 1 2log\frac 1 2)+\\\frac 1 6 * ( -\frac 1 2log\,\frac 1 2 -\frac 1 2log\frac 1 2)) = 1$$

Lo que significa que $H(XY) = log6 + 1$ . ¿Es esto posible? ¿Estoy haciendo algo mal?

Se agradece mucho cualquier ayuda o idea.

1voto

Mees de Vries Puntos 165

Para cualquier $x$ El valor de $H(Y \mid X = x)$ debe ser igual a 0; esto es lo que formaliza su intuición de que no hay más información en $Y$ una vez $X$ es conocido, ya que $Y$ está totalmente determinado por $X$ . En otras palabras, $H(X, Y) = H(X)$ (la información en ambos $X, Y$ es la misma que la información en $X$ ).

El problema en tu cálculo es que calculas $H(Y \mid X = x)$ como si se tratara de un ordenador $H(Y)$ de hecho, $H(Y \mid X = x) = -1\log(1) - 0\log(0) = 0$ (con la convención estándar de que $0\log(0)$ está definido y es igual a 0).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X