13 votos

Una explicación matemática de Simpson ' paradoja de s

Ok, sé que ya hay una pregunta con este nombre! Pero doens no tengo una respuesta. Hay un comentario por @gung, pero me temo que no lo entiendo, probablemente debido a que no tienen un claro entendimiento de la paradoja de Simpson. Lo que yo entiendo como la de la paradoja de Simpson es, a grandes rasgos, el hecho de que el promedio de respuesta Y1, agrupados sobre todos los posibles niveles del factor A, que puede ser mayor que el promedio de respuesta Y2 través de todos los niveles de Una, incluso si el promedio de Y1 para cada nivel de Una (cada grupo) es siempre menor que el promedio de Y2. He leído algunos ejemplos de eso, pero todavía me sorprende cada vez que lo veo, tal vez porque yo realmente no aprenden bien mediante ejemplos específicos: tengo problemas generalizar. Prefiero ver una explicación en las fórmulas: que por lo general la manera en que yo aprenda más acerca de algo. Me podría dar una explicación de la paradoja de confiar en las ecuaciones, en lugar de contar las tablas?

También, creo que la razón por la que me sorprenda es que yo podría inconscientemente hacer algunas suposiciones acerca de los promedios involucrados en la paradoja , que puede no ser cierto en general. Tal vez me olvide de peso por el número de muestras en cada grupo? Podría ser. Pero entonces, me gustaría ver una ecuación que me muestra que la estimación de la media total es más precisa si yo peso promedio de cada grupo por el número de muestras en cada grupo, debido a que, si esto es cierto) no parece obvio para mí en general. Ingenuamente me gustaría pensar que la estimación de $\mathbf{E}[Y_1]$ tiene un menor error estándar cuando tengo más muestras, independientemente de la ponderación.

16voto

Bruce ONeel Puntos 391

Supongamos que tenemos los datos en 2 variables, $x$$y$, para los 2 grupos, a y B.

De datos en el grupo a son tales que el conjunto de la recta de regresión es

$$y = 11 - x$$

with mean values of $2$ and $9$ for $x$ and $y$ respectively.

Data in group B are such that the fitted regression line is

$$y = 25 - x$$

with mean values of $11$ and $14$ for $x$ and $y$ respectively.

So the regression coefficient for $x$ is $-1$ in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is $(2,9)$ for group A and $(11,14)$ for group B. Then it is easy to see that the overall regression line slope must be $(14-9)/(11-2) = 0.55$ which is the overall regression coefficient for $x$. Thus we see Simpson's paradox in action – we have a negative association of $x$ with $$ y en cada grupo de forma individual, sino una asociación positiva en general, cuando los datos son agregados. Podemos demostrar esto fácilmente en R como sigue:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

La red de puntos y la recta de regresión son el grupo a, el azul de puntos y la recta de regresión son el grupo B y la línea negra es el general de la línea de regresión.

10voto

Bruce ONeel Puntos 391

Aquí es un enfoque general para la comprensión de la Paradoja de Simpson algebraicamente para datos de recuento.

Supongamos que tenemos los datos de supervivencia para una exposición y vamos a crear una tabla de contingencia 2x2. Para mantener las cosas simples vamos a tener la misma cuenta en cada celda. Hemos podido descansar de esto, pero sería hacer el álgebra un poco desordenado.

\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X & X & 0.5 \\ \hline \text{Unexposed}& X & X & 0.5\\ \hline \end{array}

En este caso, la Tasa de mortalidad es la misma en los expuestos y los no Expuestos los grupos.

Ahora, si dividimos los datos, decir que en un grupo de mujeres y otro grupo para los varones, obtenemos 2 tablas, con la siguiente cuenta:

Hombres: \begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & Xa & Xb & \frac{a}{a+b} \\ \hline \text{Unexposed}& Xc & Xd & \frac{c}{c+d}\\ \hline \end{array}

y para las mujeres: \begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \\ \hline \text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\\ \hline \end{array}

donde $a,b,c,d \in [0,1]$ son las proporciones de cada célula en el conjunto de la tabla de datos que son hombres.

Simpson es la Paradoja se produce cuando la tasa de mortalidad de los machos expuestos es mayor que la tasa de mortalidad de los no expuestos, los hombres Y la tasa de muerte de mujeres expuestas es mayor que la tasa de muerte de mujeres no expuestas. Alternativamente, también se producirá cuando las tasas de mortalidad de los machos expuestos es menor que la tasa de mortalidad de los no expuestos, los hombres Y la tasa de muerte de mujeres expuestas es menor que la tasa de muerte de mujeres no expuestas. Es decir, cuando

$$\left(\frac{a}{a+b} < \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} < \frac{c-1}{c+d-2}\right)$$

$$ \text{Or }$$

$$\left(\frac{a}{a+b} > \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} > \frac{c-1}{c+d-2}\right)$$

Como un ejemplo concreto, vamos a $X=100$, e $a=0.5, b=0.8, c=0.9$. Entonces habremos de la paradoja de Simpson cuando

$$\left(\frac{0.5}{0.8+0.9} < \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} < \frac{0.9-1}{0.9+d-2}\right)$$

$$ (-9 < d < 1.44) \text{ and } (0.96 < d < 1.1) $$

Desde que llegamos a la conclusión de que d debe estar en $(0.96,1]$

El 2º conjunto de desigualdades da:

$$\left(\frac{0.5}{0.8+0.9} > \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} > \frac{0.9-1}{0.9+d-2}\right)$$

$$ (d < -0.9 \text{ or } d>1.44) \text{ and } (0.96 < d \text{ or } d > 1.44) $$

que no tiene ninguna solución para $d \in [0,1]$

Así que para los tres valores que hemos elegido para $a,b,$$c$, para invocar de la paradoja de Simpson, $d$ debe ser mayor que 0.96. En el caso de que el valor fue de $0.99$, entonces se obtendría una Tasa de mortalidad de los Varones de

$$ 0.5/ (0.5+0.8) = 38 \text{% in the exposed group} $$ $$ 0.9/ (0.9+0.99) = 48 \text{% in the unexposed group} $$

y para las Mujeres:

$$ (0.5-1)/ (0.5+0.8-2) = 71 \text{% in the exposed group} $$ $$ (0.9-1)/ (0.9+0.99-2) = 91 \text{% in the unexposed group} $$

Así, los hombres tienen una mayor tasa de mortalidad en el grupo no expuesto que en el grupo expuesto, y las hembras también tienen una mayor tasa de mortalidad en el grupo no expuesto que el grupo expuesto, sin embargo, las tasas de mortalidad en los datos agregados son los mismos para los expuestos y los no expuestos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X