6 votos

¿Cuál es la mejor manera de hacer una regresión de las proporciones (como variables dependientes e independientes)?

Actualmente estoy realizando un meta-análisis y he agrupado la prevalencia de una determinada enfermedad. Me gustaría comprobar si existe alguna asociación entre los factores de riesgo, como el sexo, la etnia y la clasificación de la enfermedad (que he introducido como proporciones), con dicha prevalencia. ¿Puedo preguntar cuál es el mejor camino a seguir?

8voto

Bruce ONeel Puntos 391

Supongamos que tenemos un modelo como

$$y = x$$

donde $y$ y $x$ son algunas mediciones en una serie de muestras. Ahora, si introducimos una tercera variable, algo así como un número de sujetos en cada muestra o el tamaño de cada población, $z$ y queremos formar otro modelo para que se trate de proporciones, podríamos tener el modelo

$$\frac{y}{z} = \frac{x}{z}$$

ahora debería ser obvio, que ya que $z$ aparece en el denominador en ambos lados, los dos lados están "acoplados", de ahí el término acoplamiento matemático.

Un simple ejemplo en R puede demostrarlo. Para simplificar, simulamos tres variables de una distribución normal estándar de forma independiente:

> set.seed(1)
> x <- rnorm(100)
> y <- rnorm(100)
> cor(x,y)
[1] -0.0009943199

...por lo que la correlación es cercana a cero. O en la regresión lineal:

> summary(lm(y~x))

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.8768 -0.6138 -0.1395  0.5394  2.3462 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.03769    0.09699  -0.389    0.698
x           -0.00106    0.10773  -0.010    0.992

Residual standard error: 0.9628 on 98 degrees of freedom
Multiple R-squared:  9.887e-07, Adjusted R-squared:  -0.0102 
F-statistic: 9.689e-05 on 1 and 98 DF,  p-value: 0.9922

por lo que las estimaciones son cercanas a cero y también lo es R^2.

Ahora introducimos una tercera variable:

> z <- rnorm(100)
> cor(x/z, y/z)
[1] 0.9168795

y de repente la correlación es superior a 0,9. O en la regresión:

> summary(lm(I(y/z) ~ I(x/z)))

Call:
lm(formula = I(y/z) ~ I(x/z))

Residuals:
    Min      1Q  Median      3Q     Max 
-45.996  -4.733  -2.784  -1.524 214.929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.74090    2.53884    1.08    0.283    
I(x/z)       1.44965    0.06375   22.74   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 25.35 on 98 degrees of freedom
Multiple R-squared:  0.8407,    Adjusted R-squared:  0.839 
F-statistic: 517.1 on 1 and 98 DF,  p-value: < 2.2e-16

...y la estimación de la pendiente es superior a cero con un valor p muy pequeño, y el R^2 es 0,8407, que es 0,9168795^2

Cabe señalar que este ejemplo es bastante extremo porque todas las variables son normales estándar, y esto induce el mayor efecto posible de acoplamiento matemático. Cuando las variables están en escalas diferentes, con varianzas diferentes, de tipos diferentes, o correlacionadas entre sí, el efecto del acoplamiento matemático es menos pronunciado, pero sigue estando presente.

Por ello, se aconseja extremar la precaución al tratar con las proporciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X