Andrew Gelman en una de las últimas entradas de su blog dice:
No creo que los contrafactuales o los resultados potenciales sean necesarios para la paradoja de Simpson. Digo esto porque se puede plantear la paradoja de Simpson Simpson con variables que no se pueden manipular, o para las que las manipulaciones no son directamente de interés.
La paradoja de Simpson forma parte de un problema más general: los coeficientes de regresión cambian si se añaden más predictores. realmente necesario.
He aquí un ejemplo que utilizo en mis clases y que ilustra ambas cosas puntos:
Puedo hacer una regresión que prediga los ingresos a partir del sexo y la altura. Encuentro que el coef del sexo es \$10,000 (i.e., comparing a man and woman of the same height, on average the man will make \$ 10.000 más) y el coeficiente de altura es \$500 (i.e., comparing two men or two women of different heights, on average the taller person will make \$ 500 más por centímetro de altura).
¿Cómo puedo interpretar estos coeficientes? Creo que el coeficiente de altura es fácil de interpretar (es fácil imaginarse comparando a dos personas del mismo sexo con estaturas diferentes), de hecho parecería de algún modo "incorrecto" hacer una regresión sobre la altura sin controlando el sexo, la mayor parte de la diferencia entre personas bajas y altas puede "explicarse" por ser diferencias entre hombres y mujeres. Pero el coef del sexo en el parece muy difícil de interpretar: ¿por qué comparar a un hombre y a una mujer que miden ambos 66 pulgadas, por ejemplo? Sería una comparación de un hombre bajo con una mujer alta. Todo este razonamiento parece vagamente causal, pero no creo que tenga sentido pensar en ello utilizando resultados potenciales.
Lo he meditado (e incluso comentado en el post) y creo que hay algo que pide ser entendido con mayor claridad aquí.
Hasta la parte de la interpretación del género está muy bien. Pero no veo cuál es el problema de comparar a un hombre bajo con una mujer alta. Este es mi punto: De hecho tiene aún más sentido (dado el supuesto de que los hombres son más altos en promedio). No se puede comparar a un "hombre bajo" con una "mujer baja" exactamente por la misma razón, que la diferencia de ingresos se explica en parte por la diferencia de estaturas. Lo mismo ocurre con los hombres altos y las mujeres altas, y aún más con las mujeres bajas y los hombres altos (lo que está más fuera de lugar, por así decirlo). Así que básicamente el efecto de la altura se elimina sólo en el caso en que se comparan hombres bajos y mujeres altas (y esto ayuda a interpretar el coeficiente sobre el género). ¿No te suena a conceptos subyacentes similares detrás de los populares modelos de emparejamiento?
La idea que subyace a la paradoja de Simpson es que el efecto poblacional puede ser diferente del efecto o efectos en función del subgrupo. En cierto sentido, esto está relacionado con su punto 2 y con el hecho de que reconozca que la estatura no debe controlarse por sí sola (lo que llamamos sesgo de variable omitida). Pero no pude relacionarlo con la controversia sobre el coeficiente de género.
¿Quizá pueda expresarlo con más claridad? ¿O comentar lo que he entendido?