Básicamente $I(X,Y;Z)$ es la información mutua entre $(X,Y)$ y $Z$ que puede escribirse como sigue: $$ I(X,Y;Z)=H(Z)-H(Z|XY). $$ El valor trata de cuantificar intuitivamente la cantidad de información que conocemos sobre $Z$ por saber $X$ y $Y$ . Por ejemplo, si $Z=f(X,Y)$ entonces esperamos que $Z$ se puede conocer plenamente conociendo $X,Y$ . Por lo tanto, la información mutua en este caso es la información en $Z$ a saber: $H(Z)$ . La información mutua con un punto y coma representa la cantidad de información que se puede conocer sobre un conjunto de variables aleatorias a un lado del punto y coma conociendo el conjunto de variables aleatorias al otro lado.
Por lo tanto, $I(X;Y)$ es simplemente la información común a $X$ y $Y$ . Ahora bien, si estamos interesados en conocer la información común de $X,Y,Z$ entonces utilizamos $I(X;Y;Z)$ que se define como sigue: $$ I(X;Y;Z)=I(X;Y)-I(X;Y|Z) $$ El término $I(X;Y|Z)$ puede interpretarse como la información que es común entre $X$ y $Y$ más allá de $Z$ es decir, la información en $X,Y$ pero no en $Z$ . Si restamos este valor a la información común de $X$ y $Y$ esperamos obtener algo que esté en todo $X,Y,Z$ . Esto es diferente de $I(X,Y;Z)$ donde nos interesaba la información común de $Z$ y el par $(X,Y)$ conjuntamente.
La analogía de la teoría de conjuntos debe usarse con cuidado en la teoría de la información, aunque podemos usarla para obtener alguna intuición. $I(X,Y;Z)$ es más bien $(X\cup Y)\cap Z$ y $I(X;Y;Z)$ es más bien $X\cap Y\cap Z$ .