Actualmente estoy realizando un meta-análisis y he agrupado la prevalencia de una determinada enfermedad. Me gustaría comprobar si existe alguna asociación entre los factores de riesgo, como el sexo, la etnia y la clasificación de la enfermedad (que he introducido como proporciones), con dicha prevalencia. ¿Puedo preguntar cuál es el mejor camino a seguir?
Respuesta
¿Demasiados anuncios?Supongamos que tenemos un modelo como
donde y son algunas mediciones en una serie de muestras. Ahora, si introducimos una tercera variable, algo así como un número de sujetos en cada muestra o el tamaño de cada población, y queremos formar otro modelo para que se trate de proporciones, podríamos tener el modelo
ahora debería ser obvio, que ya que aparece en el denominador en ambos lados, los dos lados están "acoplados", de ahí el término acoplamiento matemático.
Un simple ejemplo en R puede demostrarlo. Para simplificar, simulamos tres variables de una distribución normal estándar de forma independiente:
> set.seed(1)
> x <- rnorm(100)
> y <- rnorm(100)
> cor(x,y)
[1] -0.0009943199
...por lo que la correlación es cercana a cero. O en la regresión lineal:
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-1.8768 -0.6138 -0.1395 0.5394 2.3462
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.03769 0.09699 -0.389 0.698
x -0.00106 0.10773 -0.010 0.992
Residual standard error: 0.9628 on 98 degrees of freedom
Multiple R-squared: 9.887e-07, Adjusted R-squared: -0.0102
F-statistic: 9.689e-05 on 1 and 98 DF, p-value: 0.9922
por lo que las estimaciones son cercanas a cero y también lo es R^2.
Ahora introducimos una tercera variable:
> z <- rnorm(100)
> cor(x/z, y/z)
[1] 0.9168795
y de repente la correlación es superior a 0,9. O en la regresión:
> summary(lm(I(y/z) ~ I(x/z)))
Call:
lm(formula = I(y/z) ~ I(x/z))
Residuals:
Min 1Q Median 3Q Max
-45.996 -4.733 -2.784 -1.524 214.929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.74090 2.53884 1.08 0.283
I(x/z) 1.44965 0.06375 22.74 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 25.35 on 98 degrees of freedom
Multiple R-squared: 0.8407, Adjusted R-squared: 0.839
F-statistic: 517.1 on 1 and 98 DF, p-value: < 2.2e-16
...y la estimación de la pendiente es superior a cero con un valor p muy pequeño, y el R^2 es 0,8407, que es 0,9168795^2
Cabe señalar que este ejemplo es bastante extremo porque todas las variables son normales estándar, y esto induce el mayor efecto posible de acoplamiento matemático. Cuando las variables están en escalas diferentes, con varianzas diferentes, de tipos diferentes, o correlacionadas entre sí, el efecto del acoplamiento matemático es menos pronunciado, pero sigue estando presente.
Por ello, se aconseja extremar la precaución al tratar con las proporciones.