Aquí es un enfoque general para la comprensión de la Paradoja de Simpson algebraicamente para datos de recuento.
Supongamos que tenemos los datos de supervivencia para una exposición y vamos a crear una tabla de contingencia 2x2. Para mantener las cosas simples vamos a tener la misma cuenta en cada celda. Hemos podido descansar de esto, pero sería hacer el álgebra un poco desordenado.
\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline
\text{Exposed} & X & X & 0.5 \\ \hline
\text{Unexposed}& X & X & 0.5\\ \hline
\end{array}
En este caso, la Tasa de mortalidad es la misma en los expuestos y los no Expuestos los grupos.
Ahora, si dividimos los datos, decir que en un grupo de mujeres y otro grupo para los varones, obtenemos 2 tablas, con la siguiente cuenta:
Hombres:
\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline
\text{Exposed} & Xa & Xb & \frac{a}{a+b} \\ \hline
\text{Unexposed}& Xc & Xd & \frac{c}{c+d}\\ \hline
\end{array}
y para las mujeres:
\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline
\text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \\ \hline
\text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\\ \hline
\end{array}
donde $a,b,c,d \in [0,1]$ son las proporciones de cada célula en el conjunto de la tabla de datos que son hombres.
Simpson es la Paradoja se produce cuando la tasa de mortalidad de los machos expuestos es mayor que la tasa de mortalidad de los no expuestos, los hombres Y la tasa de muerte de mujeres expuestas es mayor que la tasa de muerte de mujeres no expuestas. Alternativamente, también se producirá cuando las tasas de mortalidad de los machos expuestos es menor que la tasa de mortalidad de los no expuestos, los hombres Y la tasa de muerte de mujeres expuestas es menor que la tasa de muerte de mujeres no expuestas.
Es decir, cuando
$$\left(\frac{a}{a+b} < \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} < \frac{c-1}{c+d-2}\right)$$
$$ \text{Or }$$
$$\left(\frac{a}{a+b} > \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} > \frac{c-1}{c+d-2}\right)$$
Como un ejemplo concreto, vamos a $X=100$, e $a=0.5, b=0.8, c=0.9$. Entonces habremos de la paradoja de Simpson cuando
$$\left(\frac{0.5}{0.8+0.9} < \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} < \frac{0.9-1}{0.9+d-2}\right)$$
$$ (-9 < d < 1.44) \text{ and } (0.96 < d < 1.1) $$
Desde que llegamos a la conclusión de que d debe estar en $(0.96,1]$
El 2º conjunto de desigualdades da:
$$\left(\frac{0.5}{0.8+0.9} > \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} > \frac{0.9-1}{0.9+d-2}\right)$$
$$ (d < -0.9 \text{ or } d>1.44) \text{ and } (0.96 < d \text{ or } d > 1.44) $$
que no tiene ninguna solución para $d \in [0,1]$
Así que para los tres valores que hemos elegido para $a,b,$$c$, para invocar de la paradoja de Simpson, $d$ debe ser mayor que 0.96. En el caso de que el valor fue de $0.99$, entonces se obtendría una Tasa de mortalidad de los Varones de
$$ 0.5/ (0.5+0.8) = 38 \text{% in the exposed group} $$
$$ 0.9/ (0.9+0.99) = 48 \text{% in the unexposed group} $$
y para las Mujeres:
$$ (0.5-1)/ (0.5+0.8-2) = 71 \text{% in the exposed group} $$
$$ (0.9-1)/ (0.9+0.99-2) = 91 \text{% in the unexposed group} $$
Así, los hombres tienen una mayor tasa de mortalidad en el grupo no expuesto que en el grupo expuesto, y las hembras también tienen una mayor tasa de mortalidad en el grupo no expuesto que el grupo expuesto, sin embargo, las tasas de mortalidad en los datos agregados son los mismos para los expuestos y los no expuestos.