26 votos

La paradoja de Simpson: el ejemplo de Andrew Gelman con la regresión de los ingresos en función del sexo y la altura

Andrew Gelman en una de las últimas entradas de su blog dice:

  1. No creo que los contrafactuales o los resultados potenciales sean necesarios para la paradoja de Simpson. Digo esto porque se puede plantear la paradoja de Simpson Simpson con variables que no se pueden manipular, o para las que las manipulaciones no son directamente de interés.

  2. La paradoja de Simpson forma parte de un problema más general: los coeficientes de regresión cambian si se añaden más predictores. realmente necesario.

He aquí un ejemplo que utilizo en mis clases y que ilustra ambas cosas puntos:

Puedo hacer una regresión que prediga los ingresos a partir del sexo y la altura. Encuentro que el coef del sexo es \$10,000 (i.e., comparing a man and woman of the same height, on average the man will make \$ 10.000 más) y el coeficiente de altura es \$500 (i.e., comparing two men or two women of different heights, on average the taller person will make \$ 500 más por centímetro de altura).

¿Cómo puedo interpretar estos coeficientes? Creo que el coeficiente de altura es fácil de interpretar (es fácil imaginarse comparando a dos personas del mismo sexo con estaturas diferentes), de hecho parecería de algún modo "incorrecto" hacer una regresión sobre la altura sin controlando el sexo, la mayor parte de la diferencia entre personas bajas y altas puede "explicarse" por ser diferencias entre hombres y mujeres. Pero el coef del sexo en el parece muy difícil de interpretar: ¿por qué comparar a un hombre y a una mujer que miden ambos 66 pulgadas, por ejemplo? Sería una comparación de un hombre bajo con una mujer alta. Todo este razonamiento parece vagamente causal, pero no creo que tenga sentido pensar en ello utilizando resultados potenciales.

Lo he meditado (e incluso comentado en el post) y creo que hay algo que pide ser entendido con mayor claridad aquí.

Hasta la parte de la interpretación del género está muy bien. Pero no veo cuál es el problema de comparar a un hombre bajo con una mujer alta. Este es mi punto: De hecho tiene aún más sentido (dado el supuesto de que los hombres son más altos en promedio). No se puede comparar a un "hombre bajo" con una "mujer baja" exactamente por la misma razón, que la diferencia de ingresos se explica en parte por la diferencia de estaturas. Lo mismo ocurre con los hombres altos y las mujeres altas, y aún más con las mujeres bajas y los hombres altos (lo que está más fuera de lugar, por así decirlo). Así que básicamente el efecto de la altura se elimina sólo en el caso en que se comparan hombres bajos y mujeres altas (y esto ayuda a interpretar el coeficiente sobre el género). ¿No te suena a conceptos subyacentes similares detrás de los populares modelos de emparejamiento?

La idea que subyace a la paradoja de Simpson es que el efecto poblacional puede ser diferente del efecto o efectos en función del subgrupo. En cierto sentido, esto está relacionado con su punto 2 y con el hecho de que reconozca que la estatura no debe controlarse por sí sola (lo que llamamos sesgo de variable omitida). Pero no pude relacionarlo con la controversia sobre el coeficiente de género.

¿Quizá pueda expresarlo con más claridad? ¿O comentar lo que he entendido?

12voto

alexs77 Puntos 36

No estoy totalmente seguro de su pregunta, pero puede comentar sus afirmaciones y su confusión en el modelo de ejemplo.

Andrew no está muy claro si el interés científico reside en la altura ajustada asociación de sexos o la sexo ajustado asociación de altura-ingreso. En el marco de un modelo causal, el sexo causa altura pero altura no causa sexo. Así que si queremos el impacto del sexo, ajustar por la altura introduciría mediador sesgo (posiblemente también sesgo de colisionador, ya que los ricos son más altos). Me resulta confuso y divertido cuando veo investigaciones aplicadas que interpretan la otros "covariables" (variables de confusión y precisión) que se incluyen en un modelo. No tienen sentido, sino que simplemente proporcionan una estratificación adecuada para realizar la comparación necesaria. Ajustar por la estatura, si lo que interesa es hacer inferencia sobre las diferencias de ingresos basadas en el sexo, es la equivocado que hacer.

Estoy de acuerdo en que los contrafactuales no son necesarios para explicar la paradoja de Simpson. Pueden ser simplemente un rasgo intrínseco a los datos. Creo que tanto los RR brutos como los ajustados son en cierto sentido correctos sin ser causales. Es más problemático, por supuesto, cuando el objetivo es el análisis causal, y el sobreajuste revela problemas de no colapsabilidad (que infla una OR) y de tamaño insuficiente de la muestra.

Como recordatorio para los lectores: La paradoja de Simpson es un fenómeno muy específico que se refiere a un caso en el que una asociación cambia de dirección tras controlar una variable de confusión. Los datos de admisión de Berkeley fueron el ejemplo motivador. Allí, los RR brutos mostraban que las mujeres tenían menos probabilidades de ser aceptadas en Berkeley. Sin embargo, una vez estratificados por departamentos los RR mostraron que las mujeres más probable para ser aceptado en todos los departamentos . Simplemente eran más propensos a solicitar plaza en los departamentos difíciles que rechazaban a mucha gente.

Ahora bien, en la teoría de la inferencia causal, nos desconcertaría concebir que el departamento al que se aplica causa género . El género es intrínseco, ¿verdad? Pues sí y no. Miettenen defiende un enfoque de "base de estudio" para este tipo de problemas: ¿quién es la población? No son todos los estudiantes que cumplen los requisitos, sino los que solicitan plaza en Berkeley. Los departamentos más competitivos han atraído a las mujeres a solicitar plaza en Berkeley cuando de otro modo no lo habrían hecho. Por ejemplo, una mujer muy inteligente quiere entrar en el mejor programa de ingeniería, por ejemplo. Si Berkeley no tuviera un gran programa de ingeniería, no habría solicitado plaza en Berkeley, sino en el MIT o en CalPoly. Así que, desde ese punto de vista, la población de "estudiantes solicitantes", el departamento causa el género y es un factor de confusión. (Advertencia: soy un estudiante universitario de primera generación, así que no sé mucho sobre qué programas son famosos por qué).

¿Cómo resumimos estos datos? Es verdadero que Berkeley tenía más probabilidades de admitir a un hombre que lo solicitaba que a una mujer. Y es verdadero que los departamentos de Berkeley admitían más mujeres que hombres. Los RR brutos y estratificados son medidas sensatas aunque no sean causales. Esto subraya lo importante que es ser preciso con nuestra redacción como estadísticos (el humilde autor no presume de ser ni remotamente preciso).

La confusión es un fenómeno distinto de la no colapsabilidad, otra forma de sesgo de variable omitida pero que se sabe que produce efectos más leves en las estimaciones. A diferencia de la regresión logística, la no colapsabilidad no no causar sesgos en regresión lineal y la consideración de un continuo en el ejemplo de Gelman debería haberse descrito con más detalle.

La interpretación que hace Andrew del coeficiente de sexo en su modelo de ingresos ajustados por sexo / estatura revela la naturaleza de los supuestos del modelo: el supuesto de linealidad. De hecho, en el modelo lineal, este tipo de comparaciones entre hombres y mujeres son posibles porque, para una mujer concreta, podemos predecir lo que podría haber ganado un varón de estatura similar, aunque no hubiera sido observado. Lo mismo ocurre si se tiene en cuenta la modificación del efecto, de modo que la pendiente de la tendencia en las mujeres sea diferente de la de los hombres. Por otra parte, no creo que sea tan descabellado concebir hombres y mujeres de la misma estatura, 66 pulgadas en efecto sería una mujer alta y un hombre bajo. Me parece una proyección suave, más que una extrapolación grosera. Además, dado que los supuestos del modelo pueden enunciarse con claridad, ayuda a los lectores a comprender que la asociación estratificada por sexo entre ingresos y estatura aporta información que es prestado a través de o media entre muestras de hombres y mujeres. Si tal asociación fuera objeto de inferencia, el estadístico serio consideraría obviamente la posibilidad de una modificación del efecto.

1voto

docstryder Puntos 106

"¿por qué comparar a un hombre y una mujer que miden ambos 66 pulgadas, por ejemplo? Eso sería una comparación de un hombre bajo con una mujer alta "

El modelo supone que los ingresos dependen del sexo y de la estatura. Sin embargo, la forma en que la altura genera mayores ingresos puede no ser la misma para hombres y mujeres. Las mujeres pueden ser consideradas "suficientemente altas" a una altura para la que un hombre puede seguir siendo considerado bajo.

Simplificar el modelo de la siguiente manera puede ser útil.

Suponga que desea realizar una regresión de la probabilidad de ser empleado como dependiente en tiendas de grandes minoristas de ropa y considere la siguiente estrategia de identificación.

Usted observa que los empresarios son más propensos a contratar a trabajadores que cumplen un determinado mínimo de estatura, donde el "mínimo" es relativo al sexo.

En lugar de medir la altura en cm, supongamos que existen dos valores umbral que definen a partir de qué altura, respectivamente, un hombre y una mujer son "altos": >= 180 cm para los hombres y >= 170 cm para las mujeres.

Suponiendo que los umbrales existan en la realidad (es decir, que los empresarios marquen una diferencia real entre ser mujer y medir 169 cm o 171 cm), y que sean los correctos, se puede construir un maniquí que defina a los hombres y mujeres altos/bajos. Hombres y mujeres de distinta estatura pueden seguir entrando en la misma categoría de su variable ficticia y, al mismo tiempo, su medida es coherente con la dinámica real de ese mercado laboral concreto.

0voto

robert cowan Puntos 11

¿Estarías diciendo (en palabras más llanas) que la típica lucha de género que dice que los hombres tienen más oportunidades que las mujeres porque sus ingresos son p% más altos estaría paradójicamente sesgada?

Tal vez sea un punto. Tendemos a ver las cosas como parecen y no a analizar las implicaciones subyacentes.

para ir más allá de la paradoja de Simpson tendríamos que responder a la pregunta "¿cuánto más dinero gana una mujer haciendo la misma cantidad de trabajo imparcial en comparación con un hombre? "entonces alguien podría decir que tienen que estar embarazadas y criar a los hijos más que sus homólogos, lo cual es cierto, pero la cuestión importante es que es una especie de suspiro decir, "las mujeres por el mero hecho de ser mujeres tienen menos oportunidades" y un análisis profundo con estadísticas condicionales nos llevaría a ver que en esencia tiende a haber igualdad de oportunidades y son otros factores no relacionados con el sexo lo que hace que las estadísticas parezcan que son discriminación relacionada con cuestiones de sexo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X