Básicamente I(X,Y;Z) es la información mutua entre (X,Y) y Z que puede escribirse como sigue: I(X,Y;Z)=H(Z)−H(Z|XY). El valor trata de cuantificar intuitivamente la cantidad de información que conocemos sobre Z por saber X y Y . Por ejemplo, si Z=f(X,Y) entonces esperamos que Z se puede conocer plenamente conociendo X,Y . Por lo tanto, la información mutua en este caso es la información en Z a saber: H(Z) . La información mutua con un punto y coma representa la cantidad de información que se puede conocer sobre un conjunto de variables aleatorias a un lado del punto y coma conociendo el conjunto de variables aleatorias al otro lado.
Por lo tanto, I(X;Y) es simplemente la información común a X y Y . Ahora bien, si estamos interesados en conocer la información común de X,Y,Z entonces utilizamos I(X;Y;Z) que se define como sigue: I(X;Y;Z)=I(X;Y)−I(X;Y|Z) El término I(X;Y|Z) puede interpretarse como la información que es común entre X y Y más allá de Z es decir, la información en X,Y pero no en Z . Si restamos este valor a la información común de X y Y esperamos obtener algo que esté en todo X,Y,Z . Esto es diferente de I(X,Y;Z) donde nos interesaba la información común de Z y el par (X,Y) conjuntamente.
La analogía de la teoría de conjuntos debe usarse con cuidado en la teoría de la información, aunque podemos usarla para obtener alguna intuición. I(X,Y;Z) es más bien (X∪Y)∩Z y I(X;Y;Z) es más bien X∩Y∩Z .