Estoy aprendiendo sobre la información mutua, y estoy confundido sobre una de las definiciones. La información mutua se define como $ I(X;Y) = H(X) - H(X | Y) $
donde,
$$ H(X) = \sum_{x} p(x) \log \frac{1}{p(x)} ,$$
y de manera similar,
$$ H(X|Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x|y)} $$
donde $H(X)$ se refiere podemos entonces decir que,
$$ \begin{align*} \sum_x p(x) \log \frac{1}{p(x)} &= \sum_x \left( (p(x) \log \frac{1}{p(x)}) \sum_y p(y|x) \right) \\ &= \sum_{x,y} p(x)p(y|x) \log \frac{1}{p(x)} = \\ &= \sum_{x,y} p(x,y) \log \frac{1}{p(x)} \end{align*} $$
porque $ \sum \limits_y p(y|x) = 1 $ para cualquier $x$ .
Creo que la derivación debe ser así, y combinada con $H(X|Y)$ finalmente conduce a la ecuación canónica,
$$\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} .$$
Pero me parece que es igualmente cierto decir que,
$$ \begin{align*} \sum_{x} p(x) \log \frac{1}{p(x)} &= \sum_{x} \left\{ ( p(x) \log \frac{1}{p(x)} ) \sum_{y} p(y) \right\} \\ &= \sum_{x,y} p(x)p(y) \log \frac{1}{p(x)} \end{align*} $$
porque también tenemos $ \sum_{y} p(y) = 1 $ por definición.
El problema que tengo es que esta última versión implica que,
$$\sum_{x,y} p(x,y) \log \frac{1}{p(x)} = \sum_{x,y} p(x)p(y) \log \frac{1}{p(x)} $$
lo que implica que $ p(x,y) = p(x)p(y) $ lo que implica también que $X$ y $Y$ son independientes. Sé que esta última conclusión es falsa, porque significa que nunca habría información mutua y, por tanto, que esta métrica no tendría sentido, pero no consigo averiguar en qué me equivoco. Sería estupendo que alguien me indicara el error que estoy cometiendo en este último caso.