Actualmente estoy realizando un meta-análisis y he agrupado la prevalencia de una determinada enfermedad. Me gustaría comprobar si existe alguna asociación entre los factores de riesgo, como el sexo, la etnia y la clasificación de la enfermedad (que he introducido como proporciones), con dicha prevalencia. ¿Puedo preguntar cuál es el mejor camino a seguir?
Respuesta
¿Demasiados anuncios?Supongamos que tenemos un modelo como
$$y = x$$
donde $y$ y $x$ son algunas mediciones en una serie de muestras. Ahora, si introducimos una tercera variable, algo así como un número de sujetos en cada muestra o el tamaño de cada población, $z$ y queremos formar otro modelo para que se trate de proporciones, podríamos tener el modelo
$$\frac{y}{z} = \frac{x}{z}$$
ahora debería ser obvio, que ya que $z$ aparece en el denominador en ambos lados, los dos lados están "acoplados", de ahí el término acoplamiento matemático.
Un simple ejemplo en R puede demostrarlo. Para simplificar, simulamos tres variables de una distribución normal estándar de forma independiente:
> set.seed(1)
> x <- rnorm(100)
> y <- rnorm(100)
> cor(x,y)
[1] -0.0009943199
...por lo que la correlación es cercana a cero. O en la regresión lineal:
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-1.8768 -0.6138 -0.1395 0.5394 2.3462
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.03769 0.09699 -0.389 0.698
x -0.00106 0.10773 -0.010 0.992
Residual standard error: 0.9628 on 98 degrees of freedom
Multiple R-squared: 9.887e-07, Adjusted R-squared: -0.0102
F-statistic: 9.689e-05 on 1 and 98 DF, p-value: 0.9922
por lo que las estimaciones son cercanas a cero y también lo es R^2.
Ahora introducimos una tercera variable:
> z <- rnorm(100)
> cor(x/z, y/z)
[1] 0.9168795
y de repente la correlación es superior a 0,9. O en la regresión:
> summary(lm(I(y/z) ~ I(x/z)))
Call:
lm(formula = I(y/z) ~ I(x/z))
Residuals:
Min 1Q Median 3Q Max
-45.996 -4.733 -2.784 -1.524 214.929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.74090 2.53884 1.08 0.283
I(x/z) 1.44965 0.06375 22.74 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 25.35 on 98 degrees of freedom
Multiple R-squared: 0.8407, Adjusted R-squared: 0.839
F-statistic: 517.1 on 1 and 98 DF, p-value: < 2.2e-16
...y la estimación de la pendiente es superior a cero con un valor p muy pequeño, y el R^2 es 0,8407, que es 0,9168795^2
Cabe señalar que este ejemplo es bastante extremo porque todas las variables son normales estándar, y esto induce el mayor efecto posible de acoplamiento matemático. Cuando las variables están en escalas diferentes, con varianzas diferentes, de tipos diferentes, o correlacionadas entre sí, el efecto del acoplamiento matemático es menos pronunciado, pero sigue estando presente.
Por ello, se aconseja extremar la precaución al tratar con las proporciones.