En un trabajo reciente de Norton et al. (2018)$^{[1]}$ estado que
Los diferentes índices de probabilidades de que el mismo estudio no se puede comparar cuando el modelos estadísticos que resultan en odds ratio estimaciones tienen diferentes variables explicativas, ya que cada modelo tiene diferentes arbitraria factor de escala. Ni la magnitud de la odds ratio de un estudio ser comparado con la magnitud de la odds ratio de otro estudio, debido a que los diferentes muestras y diferentes especificaciones de los modelos se han diferentes arbitraria de los factores de escala. Una mayor implicación es que el las magnitudes de los odds-ratios de una asociación dada en múltiples estudios no pueden ser sintetizados en un meta-análisis.
Una pequeña simulación de lo ilustra (R código está en el fondo de la cuestión). Supongamos que el modelo verdadero es: $$ \mathrm{logit}(y_{i})=1 + \log(2)x_{1} + \log(2.5)x_{2} + \log(3)x_{3i} + 0x_{4i} $$ Imagina, además, que los mismos datos generados por el modelo de arriba es analizado por cuatro diferentes investigadores mediante una regresión logística. Investigador 1 sólo incluye a$x_{1}$ como covariable, investigador 2 incluye el $x_{1}$ e $x_{2}$ y así sucesivamente. El promedio simulado estimaciones de la odds ratio para $x_{1}$ de los cuatro investigadores fueron:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Es evidente que sólo los investigadores 3 y 4 de obtener la correcta odds ratio de alrededor de $2$ mientras que los investigadores 1 y 2 no. Esto no sucede en la regresión lineal, que puede ser fácilmente demostrado por un análogo de simulación (no se muestra aquí). Debo confesar que este resultado fue bastante sorprendente para mí, aunque este problema parece ser muy conocida$^{[2]}$. Hernán et al. (2011)$^{[3]}$ llamar a esto un "matemático rareza" en lugar de un sesgo.
Mis preguntas:
- Si el cociente de probabilidades son, básicamente, incomparable a través de los estudios y modelos, ¿cómo podemos combinar los resultados de diferentes estudios para los resultados binarios?
- ¿Qué se puede decir acerca de las innumerables meta-análisis que hizo combinar las probabilidades de ocurrencia de los diferentes estudios donde cada estudio posiblemente ajustado para un conjunto de covariables? Son esencialmente inútiles?
Referencias
[1]: Norton CE, Dowd SER, Maciejewski ML (2018): Odds Ratios Actual de las Mejores Prácticas y el Uso. JAMA 320(1): 84-85.
[2]: Norton CE, Dowd SER (2017): las Probabilidades de Registro y la Interpretación de los Modelos Logit. Health Serv Res. 53(2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): Los Simpson de la paradoja de descifrado. Int J Epidemiol 40: 780-785.
La divulgación
La pregunta (incluyendo el código R) es una versión modificada de una pregunta planteada por el usuario timdisher en datamethods.
R código de
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out