Sí, creo que siempre puede haber algunos inexplorado factor que --- se había evaluado que factor --- le han cambiado nuestra interpretación de los resultados. Esto es sólo una realidad de un conocimiento imperfecto. Y especialmente problemática en los estudios observacionales como el descrito, donde las observaciones no están equilibradas. (Es decir, donde hay números desiguales de cada sexo en cada clase).
Pero debemos de tener algo de consuelo en el hecho de que tenemos algunas oportunidades para evaluar nuestros datos a la mejor de nuestras capacidades.
Para este ejemplo, la odds ratio para la primera tabla es de 1.007, lo que sugiere que la diferencia en la tasa de supervivencia entre las dos clases es tan pequeño que es muy probable que no hemos considerado interesante. Es decir, la tasa de supervivencia para cada clase es esencialmente un 24%.
El resultado de todo esto, es que yo creo que este ejemplo es un ejemplo de una paradoja donde la tendencia se invierte, de un ejemplo de no ver nada interesante en la primera tabla, pero encontrar algo interesante cuando más información se agrega en la segunda tabla.
Es sólo cuando tenemos la información en la segunda tabla que nos dan una idea de los factores que afectan a la supervivencia.
Porque la pregunta que subyace es acerca de lo que podemos concluir sobre el efecto de la Clase en la tasa de supervivencia, voy a utilizar la regresión logística para responder a esta pregunta.
##### Table 2 #####
Data = read.table(header=T, text="
Class Sex Survive NotSurvive
Third M 75 387
Third F 76 89
Crew M 192 670
Crew F 20 3
")
Trials = cbind(Data$Survive, Data$NotSurvive)
model = glm(Trials ~ Class + Sex + Class:Sex,
data = Data,
family = binomial(link="logit"))
library(car)
Anova(model)
### Analysis of Deviance Table (Type II tests)
###
### Response: Trials
### LR Chisq Df Pr(>Chisq)
### Class 13.510 1 0.0002373 ***
### Sex 88.568 1 < 2.2e-16 ***
### Class:Sex 8.502 1 0.0035472 **
Tenga en cuenta que la interacción de la Clase y el Sexo es significativa, lo que sugiere que este es el efecto que se debe prestar atención a.
En los resultados a continuación, prob es la probabilidad calculada en la tabla de la pregunta.
library(emmeans)
emmeans(model, ~ Class:Sex, type="response")
### Class Sex prob SE df asymp.LCL asymp.UCL
### Crew F 0.8695652 0.07022340 Inf 0.6645495 0.9573281
### Third F 0.4606061 0.03880395 Inf 0.3860325 0.5369860
### Crew M 0.2227378 0.01417187 Inf 0.1961989 0.2517422
### Third M 0.1623377 0.01715628 Inf 0.1314483 0.198824
También podemos usar medias marginales estimadas para la estimación de la tasa de supervivencia para cada una de las clases sería los sexos sido equilibrado en cada clase. A continuación, vemos que, de hecho, la supervivencia de la Tripulación es estadísticamente significativa y superior.
Esta es una conclusión diferente a la que se han llegado a utilizar la información en la primera mesa, solo.
emmeans(model, ~ Class, type="response")
### Class prob SE df asymp.LCL asymp.UCL
### Crew 0.5802181 0.07605615 Inf 0.4284069 0.7182285
### Third 0.2891697 0.02063485 Inf 0.2504569 0.3312222
La incorporación de la información sobre el sexo ha mejorado nuestra comprensión, pero, aún así, siempre puede haber algún otro factor de importancia que le hemos fallado a medida que han cambiado nuestra interpretación.