Dejemos que $\mathcal{U}$ sea el finito conjunto universal de todas las cosas bajo el Sol. Dejemos que $\mathcal{B}$ sea el conjunto de todas las cosas negras. Sea $\mathcal{C}$ sea el conjunto de todos los cuervos. Como hay cosas no negras y cosas negras que no son cuervos, tenemos
$$\mathcal{C} \subset \mathcal{B} \subset \mathcal{U}$$
Supongamos que un amigo que vive lejos está pensando en una cosa. Como este amigo tiene muchos intereses y piensa en muchas cosas, somos conservadores y suponemos que el PMF de la cosa en la que se piensa es uniforme en $\mathcal{U}$ . Por lo tanto, la medida de nuestra incertidumbre con respecto al pensamiento de nuestro amigo es $\log_2 |\mathcal{U}|$ bits. Si nuestro amigo nos envía el mensaje
Estoy pensando en un cuervo.
entonces nuestra incertidumbre se ha reducido a $\log_2 |\mathcal{C}|$ bits, es decir, el mensaje de nuestro amigo contenía
$$\log_2 |\mathcal{U}| - \log_2 |\mathcal{C}| = \log_2 \left(\frac{|\mathcal{U}|}{|\mathcal{C}|}\right) > 0$$
bits de información. Sin embargo, si nuestro amigo nos envía el mensaje
Estoy pensando en algo que no sea negro.
entonces nuestra incertidumbre se ha reducido a $\log_2 (|\mathcal{U}|-|\mathcal{B}|)$ bits, es decir, el mensaje de nuestro amigo contenía
$$\log_2 |\mathcal{U}| - \log_2 (|\mathcal{U}|-|\mathcal{B}|) = \log_2 \left(\frac{|\mathcal{U}|}{|\mathcal{U}|-|\mathcal{B}|}\right) > 0$$
bits de información. Si hay más cosas no negras que cuervos, lo cual es una suposición muy razonable, entonces $|\mathcal{U}|-|\mathcal{B}| > |\mathcal{C}|$ y, por lo tanto,
$$\log_2 \left(\frac{|\mathcal{U}|}{|\mathcal{C}|}\right) > \log_2 \left(\frac{|\mathcal{U}|}{|\mathcal{U}|-|\mathcal{B}|}\right)$$
es decir, el primer mensaje ("cuervo") contiene más información que el segundo ("no negro").