Podría utilizar un modelo de regresión logística con medias marginales estimadas para realizar las comparaciones.
Aquí está el ejemplo en R:
library(emmeans)
# Data
male <- c(4456, 346, 23)
female <- c(5332, 389, 52)
loc <- factor(1:3)
# Logistic regression model
mod <- glm(cbind(male, female)~loc, family = "binomial")
# Estimated marginal means
em <- emmeans(mod, "loc")
summary(em, type = "response")
loc prob SE df asymp.LCL asymp.UCL
1 0.4552513 0.00503358 Inf 0.4454045 0.4651332
2 0.4707483 0.01841119 Inf 0.4348777 0.5069236
3 0.3066667 0.05324437 Inf 0.2130632 0.4194724
Confidence level used: 0.95
Intervals are back-transformed from the logit scale
Como puede ver, se calculan las probabilidades estimadas y sus correspondientes intervalos de confianza del 95% (no ajustados). Para juzgar si una determinada proporción es compatible con una relación de sexo del 50%, hay que ver si el 50% está contenido en el respectivo intervalo de confianza. En el ejemplo, los intervalos de confianza de los lugares 1 y 3 no incluyen el 50%. Por lo tanto, hay indicios de que la proporción de sexos difiere del 50/50 en estos lugares.
Ahora vamos a comparar las ubicaciones:
con <- contrast(em, "pairwise", type = "response")
summary(con, infer = c(TRUE, TRUE))
contrast odds.ratio SE df asymp.LCL asymp.UCL z.ratio p.value
1 / 2 0.9395687 0.0720033 Inf 0.7851014 1.124427 -0.813 0.6947
1 / 3 1.8894289 0.4746981 Inf 1.0485894 3.404518 2.533 0.0304
2 / 3 2.0109534 0.5250472 Inf 1.0905515 3.708154 2.676 0.0204
Confidence level used: 0.95
Conf-level adjustment: tukey method for comparing a family of 3 estimates
Intervals are back-transformed from the log odds ratio scale
P value adjustment: tukey method for comparing a family of 3 estimates
Tests are performed on the log odds ratio scale
Las comparaciones se realizan en la escala log-odds y se presentan como odds ratios. La inspección de los intervalos de confianza del 95% ajustados y $p$ -vemos que hay algunas evidencias de que los lugares 1 y 3 y 2 y 3 difieren con respecto a la proporción de sexos. Sin embargo, hay pocas pruebas de que la proporción de sexos difiera entre las ubicaciones 1 y 2.
R también tiene una función incorporada para las comparaciones de proporciones por pares:
male <- c(4456, 346, 23)
female <- c(5332, 389, 52)
tot <- male + female
pairwise.prop.test(male, tot)
Pairwise comparisons using Pairwise comparison of proportions
data: male out of tot
1 2
2 0.438 -
3 0.028 0.028
P value adjustment method: holm
El dato exacto $p$ -Los valores difieren de los de emmeans
porque el ajuste de las comparaciones múltiples es diferente: pairwise.prop.test
utiliza el método Holm mientras que eammeans
utiliza el método Tukey por defecto. Sin embargo, las conclusiones siguen siendo las mismas.