6 votos

Cuando se hace de la Paradoja de Simpson "fin"?

Descargo de responsabilidad: Este no es un duplicado de Cómo resolver de la paradoja de Simpson.

Como se da en este blog, el siguiente es los datos de las personas en el titanic:

Este es el mismo de los datos cuando se divide en función del género:

enter image description here

Una reversión completa de los resultados observados en la primera mesa!!!

La pregunta:

No es posible que me fueron a buscar otro parámetro, digamos Altura de Pasajeros, basado en que los nuevos resultados indican una reversión completa de los en la tabla 2?

Por ejemplo, los hombres a los pasajeros con una altura de 5.5 metros de viajar en tercera clase tienen una mayor tasa de supervivencia que los miembros de la tripulación, con una altura de 5.5 metros.

¿De dónde viene esta final? Y si puedo, en teoría, repetidamente encontrar parámetros cuya inclusión cambiar o revertir los resultados, entonces es posible que considere la posibilidad de cualquier resultado seguro de usar para los cálculos de futuro?

1voto

Sal Mangiafico Puntos 26

Sí, creo que siempre puede haber algunos inexplorado factor que --- se había evaluado que factor --- le han cambiado nuestra interpretación de los resultados. Esto es sólo una realidad de un conocimiento imperfecto. Y especialmente problemática en los estudios observacionales como el descrito, donde las observaciones no están equilibradas. (Es decir, donde hay números desiguales de cada sexo en cada clase).

Pero debemos de tener algo de consuelo en el hecho de que tenemos algunas oportunidades para evaluar nuestros datos a la mejor de nuestras capacidades.

Para este ejemplo, la odds ratio para la primera tabla es de 1.007, lo que sugiere que la diferencia en la tasa de supervivencia entre las dos clases es tan pequeño que es muy probable que no hemos considerado interesante. Es decir, la tasa de supervivencia para cada clase es esencialmente un 24%.

El resultado de todo esto, es que yo creo que este ejemplo es un ejemplo de una paradoja donde la tendencia se invierte, de un ejemplo de no ver nada interesante en la primera tabla, pero encontrar algo interesante cuando más información se agrega en la segunda tabla.

Es sólo cuando tenemos la información en la segunda tabla que nos dan una idea de los factores que afectan a la supervivencia.

Porque la pregunta que subyace es acerca de lo que podemos concluir sobre el efecto de la Clase en la tasa de supervivencia, voy a utilizar la regresión logística para responder a esta pregunta.

##### Table 2 #####

Data = read.table(header=T, text="
Class  Sex  Survive  NotSurvive
Third  M     75      387
Third  F     76       89
Crew   M    192      670
Crew   F     20        3
")

Trials = cbind(Data$Survive, Data$NotSurvive)

model = glm(Trials ~ Class + Sex + Class:Sex,
            data = Data,
            family = binomial(link="logit"))

library(car)

Anova(model)

   ### Analysis of Deviance Table (Type II tests)
   ### 
   ### Response: Trials
   ###           LR Chisq Df Pr(>Chisq)    
   ### Class       13.510  1  0.0002373 ***
   ### Sex         88.568  1  < 2.2e-16 ***
   ### Class:Sex    8.502  1  0.0035472 **

Tenga en cuenta que la interacción de la Clase y el Sexo es significativa, lo que sugiere que este es el efecto que se debe prestar atención a.

En los resultados a continuación, prob es la probabilidad calculada en la tabla de la pregunta.

library(emmeans)

emmeans(model, ~ Class:Sex, type="response")

   ### Class Sex      prob         SE  df asymp.LCL asymp.UCL
   ### Crew  F   0.8695652 0.07022340 Inf 0.6645495 0.9573281
   ### Third F   0.4606061 0.03880395 Inf 0.3860325 0.5369860
   ### Crew  M   0.2227378 0.01417187 Inf 0.1961989 0.2517422
   ### Third M   0.1623377 0.01715628 Inf 0.1314483 0.198824

También podemos usar medias marginales estimadas para la estimación de la tasa de supervivencia para cada una de las clases sería los sexos sido equilibrado en cada clase. A continuación, vemos que, de hecho, la supervivencia de la Tripulación es estadísticamente significativa y superior.

Esta es una conclusión diferente a la que se han llegado a utilizar la información en la primera mesa, solo.

emmeans(model, ~ Class, type="response")

   ###  Class      prob         SE  df asymp.LCL asymp.UCL
   ###  Crew  0.5802181 0.07605615 Inf 0.4284069 0.7182285
   ###  Third 0.2891697 0.02063485 Inf 0.2504569 0.3312222

La incorporación de la información sobre el sexo ha mejorado nuestra comprensión, pero, aún así, siempre puede haber algún otro factor de importancia que le hemos fallado a medida que han cambiado nuestra interpretación.

1voto

Ran Kerry Puntos 1

Sí, tienes razón, podemos crear situaciones donde el condicional de la asociación de una variable con otra va a cambiar para cada covariable el control. Para una simulación simple, le sugiero que busque Dagitty de Simpson, la Máquina basado en la Perla de papel.

Sin embargo, la pregunta que debes hacerte es la siguiente: ¿por qué estás preocupado de que la asociación marginal es diferente de la de la asociación condicional? Eso es perfectamente normal.

Así que cuando usted pide

cuando es posible que considere la posibilidad de cualquier resultado, de uso seguro para el futuro los cálculos?

Parece que no están buscando las asociaciones sólo, pero estable, de las relaciones estructurales. La respuesta a su pregunta es que los datos por sí mismo, no importa cómo es grande, no te puede ayudar---se necesita conocimiento estructural. En cuanto a más acerca de la paradoja de Simpson, esta respuesta podría ayudar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X