16 votos

Más ejemplos de la Paradoja de Simpson, excluyendo los que se encuentran en Wikipedia, el Titanic y vuelos retrasados.

Espero que alguien pueda conocer ejemplos nuevos de la paradoja de Simpson para usar en mis cursos de estadística. Los ejemplos que he estado utilizando están bien, pero me gustaría tener algunos nuevos.

Estoy familiarizado con los que aparecen en la página de Wikipedia: la demanda de discriminación de género en Berkeley, promedios de bateo, tasas de mortalidad entre bebés de bajo peso al nacer, votación de partido en la Ley de Derechos Civiles y tasas de éxito de tratamientos de cálculos renales. También conozco el ejemplo de tasas de supervivencia en el Titanic y el de vuelos retrasados en America West vs. Alaska Airlines. Todos estos son buenos, pero, como dije, estoy buscando más. ¿Alguien conoce alguno más?

Para aquellos que no están familiarizados, la paradoja de Simpson es básicamente una propiedad de fracciones no reducidas: es posible tener, simultáneamente, $$\frac{a_1}{b_1} < \frac{c_1}{d_1} \text{ y } \frac{a_2}{b_2} < \frac{c_2}{d_2}, \text{ pero } \frac{a_1 + a_2}{b_1+b_2} > \frac{c_1+c_2}{d_1+d_2}.$$

Por ejemplo, $\frac{1}{3} < \frac{34}{100}$ y $\frac{66}{100} < \frac{2}{3}$, pero $\frac{67}{103} > \frac{36}{103}$. Puede ser difícil detectar que esto está sucediendo en un escenario del mundo real.

3 votos

Esto podría ser mejor para stats.SE.

1 votos

¿Qué tan serio/provocativo de un ejemplo estás buscando?

1 votos

@cardinal: Algo que puedo usar en una clase de estadística universitaria. Entonces, alguna provocación (por ejemplo, sesgo de género, problemas de clase, como en los ejemplos anteriores) es buena, porque llama su atención, pero tampoco quiero ofender a nadie. Y ejemplos no tan serios también pueden ser buenos, ya que a menudo los estudiantes los disfrutan. Sin embargo, no quiero insultar su inteligencia dándoles algo frívolo. Me gustaría algunos ejemplos nuevos en la línea de los que se mencionan en la publicación.

21voto

bgee Puntos 327

Ejemplo: Efecto de la raza en las sentencias de pena de muerte en casos de asesinato en Florida.

Nota: Esto está adaptado de la Subsección 2.3.2 de A. Agresti (2002), Análisis de datos categóricos, 2da ed., Wiley, pp. 48-51.

En un estudio de 1991 realizado por Radelet y Pierce sobre el efecto de la raza en las sentencias de pena de muerte, se obtuvo la siguiente tabla tabulando las sentencias de pena de muerte ($\text{Muerte}$) y las sentencias no de pena de muerte ($\text{Sin muerte}$) en condenas por asesinato en el estado de Florida. $$ \begin{array}{lrrr} \text{Raza del acusado} & \text{Muerte} & \text{Sin muerte} & \text{Porcentaje de muerte} \\ \hline \text{Caucásico} & 53 & 430 & 11.0 \\ \text{Afroamericano} & 15 & 176 & 7.9 \end{array} $$

A partir de esta tabla, vemos que los acusados caucásicos recibieron la pena de muerte con más frecuencia que los acusados afroamericanos.

Ahora, consideramos los mismos datos, excepto que estratificamos según la raza de la víctima del asesinato. A continuación se muestra la tabla.

$$ \begin{array}{llrrr} \text{Raza de la víctima} & \text{Raza del acusado} & \text{Muerte} & \text{Sin muerte} & \text{Porcentaje de muerte} \\ \hline \text{Caucásico} & \text{Caucásico} & 53 & 414 & 11.3 \\ \text{Caucásico} & \text{Afroamericano} & 11 & 37 & 22.9 \\ \text{Afroamericano} & \text{Caucásico} & 0 & 16 & 0.0 \\ \text{Afroamericano} & \text{Afroamericano} & 4 & 139 & 2.8 \end{array} $$

Aquí vemos que al considerar los casos que involucran víctimas caucásicas por separado de los casos que involucran víctimas afroamericanas, los acusados afroamericanos tienen más probabilidades que los caucásicos de recibir la pena de muerte en ambos casos (22.9% vs. 11.3% en el primer caso y 2.8% vs. 0.0% en el segundo caso).

Así, este es un claro ejemplo de la paradoja de Simpson.

(Un estudio similar anterior en 1981 realizado por Radelet observó el mismo efecto.)

4 votos

Gracias por ese ejemplo. Supongo que la explicación subyacente es que las personas de una raza tienen más probabilidades de asesinar a otros de la misma raza (presumiblemente porque están más en contacto entre sí), y que asesinar a un caucásico tiene más probabilidades de resultar en la pena de muerte que asesinar a un afroamericano. (¡Ay!)

2 votos

Sí, aunque siempre debemos tener cuidado de que podría haber, digamos, una tercera (oculta) variable que podría causar que la asociación se invierta nuevamente una vez observada y tenida en cuenta. Hay algunos resultados que muestran que cualquier variable de ese tipo tendría que estar muy fuertemente asociada con las mencionadas anteriormente.

2 votos

Tu último comentario también proporciona un momento pedagógico potencialmente útil. Observa que no hay paradoja de Simpson presente al analizar la asociación de la raza de la víctima con las sentencias de pena de muerte de los acusados.

8voto

Michael Hardy Puntos 128804

Los marineros de la Marina de los EE. UU. que cayeron por la borda en el mar fueron encontrados con mayor probabilidad de ser rescatados si no llevaban chaleco salvavidas que si lo llevaban. La explicación fue que llevaban chalecos salvavidas en mal tiempo pero no en buen tiempo. En cualquier caso, ya sea en buen o mal tiempo, tenían más probabilidades de ser rescatados mientras llevaban chalecos salvavidas, pero en general, tenían más probabilidades de ser rescatados sin llevar chalecos salvavidas. Los datos están en un texto introductorio de Danny Kaplan, el cual no tengo delante de mí.

Aquí hay un ejemplo artificial. Imagina dos jugadores de béisbol de las ligas mayores, Puckett y Smith. Puckett tiene 600 turnos al bate durante la temporada y consigue 200 hits, para un promedio de temporada de .333. Smith es llamado a las ligas mayores a tiempo para el último juego de la temporada, tiene tres turnos al bate y consigue tres hits, para un promedio de temporada de 1.000. Así que el promedio de bateo de Smith para la temporada es más alto que el de Puckett. Al año siguiente, Smith tiene 500 turnos al bate y consigue 125 hits, para un promedio de .250. Puckett juega en el primer juego y a la mañana siguiente es atropellado por un camión al cruzar la calle, y no puede jugar el resto de la temporada. No consigue hits en el primer juego. Así que una vez más, el promedio de Smith para la temporada es más alto que el de Puckett. Dos años seguidos, el promedio de Smith fue más alto que el de Puckett. Pero el promedio de Puckett para las dos temporadas combinadas es más alto que el de Smith.

4 votos

Ya he dado el ejemplo del promedio de bateo en mi pregunta.

2 votos

Gracias por el ejemplo de los marineros y la referencia.

5voto

LePressentiment Puntos 2053

He editado este ejemplo de Quora para mejorar la gramática y legibilidad.


Cuando se comparan dos poblaciones con subpoblaciones etiquetadas entre sí (o "la misma" en otro momento), es extremadamente probable que tengan proporciones diferentes de sus subpoblaciones. Este es el núcleo del paradox de Simpson. Esto es más fácil de entender si piensas en el cambio que ocurre con una población a lo largo del tiempo.

Considera un ejemplo muy simple. Tienes niñas y niños. Las niñas tienen, en promedio, el cabello más largo que los niños, y existe un promedio para la escuela en alguna parte intermedia. Es decir, $\color{limegreen}{\text{longitud promedio del cabello de los niños (ABHL)} \leq \text{longitud promedio del cabello de los estudiantes (ASHL)} \leq \text{longitud promedio del cabello de las niñas (AGHL)}}.$

Ahora, llega un niño con un cabello más largo que ABHL, pero más corto que ASHL. ¡Presto: AGHL es el mismo! Los niños tienen, en promedio, el cabello más largo. Aunque ningún subgrupo tiene el cabello más corto, ASHL ha disminuido.

Así es como funciona el paradox de Simpson: los grupos tienen promedios que van en una dirección, mientras que el promedio general va en la otra. A veces es porque los miembros de la población salen o entran, a veces es debido a cambios en los recuentos dentro de los subgrupos. Pero siempre es porque los recuentos en los subgrupos difieren entre las dos poblaciones.

2voto

user300778 Puntos 20

Simplifiqué y corregí algo de la gramática del texto en la respuesta de Jon Wayland en Quora.


Varios profesores estaban ansiosos por saber la duración óptima de estudio para que los estudiantes obtuvieran buenas calificaciones en los exámenes. Así que recopilaron la cantidad aproximada de horas que los estudiantes estaban estudiando, luego compararon con las calificaciones de los estudiantes en los exámenes.

El Sr. Simpson convenció al profesorado de que más datos significan mejores resultados, y así todos los profesores integraron sus datos cruzados para el análisis.

Los resultados fueron sorprendentes. Para confusión de todos, cuanto menos estudiaba un estudiante, más tendía a sacar en los exámenes.

ingresa una descripción de la imagen aquí

De hecho, el coeficiente asociado con esta correlación era fuertemente negativo: $-0.7981$.

¿Deberían alentar a sus estudiantes a estudiar menos? ¿Cómo diablos podía respaldar los datos semejante afirmación? Seguramente algo faltaba.

Los profesores decidieron consultar a la estadística de la escuela, la Sra. Paradox. Después de que el Sr. Simpson le explicara sus resultados, ella sugirió analizar los datos de cada curso individualmente.

Así que luego analizaron solo Ed. Física y sus mentes quedaron impresionadas.

ingresa una descripción de la imagen aquí

¡Una correlación de 0.6353! ¿Cómo era posible esto en el universo estadístico?

Luego la Sra. Paradox explicó esto como la Paradoja de Simpson, un fenómeno estadístico donde una relación aparentemente fuerte se invierte o desaparece cuando se introduce una tercera variable confusa.

Convenció al Sr. Simpson de volver a graficar todos los datos, pero luego colorear cada curso por separado para distinguirlos.

ingresa una descripción de la imagen aquí

Después de hacerlo, el Sr. Simpson y sus colegas concluyeron que la relación era realmente positiva, y que cuanto más horas estudiaba un estudiante, mayor tendía a ser la calificación.

Incluir el curso de estudio en el análisis revirtió por completo la relación.

ingresa una descripción de la imagen aquí

Código R para este ejemplo:

[No sé cómo publicar el código R como él lo hizo, enumerado y todo. ¿Alguien puede agregarlo aquí? ¡Gracias!]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X