SÍ
En cierto sentido, esta es la razón por la que hacemos la regresión, para reducir la varianza de la distribución condicional y, con suerte, permitir que la señal del efecto de interés atraviese el ruido reducido.
Consideremos la siguiente situación en la que queremos saber si el grupo de color g
afecta a y
.
set.seed(2022)
N <- 50
x <- seq(0, 100, 100/(N - 1))
g <- rep(c(0, 1), N/2)
y <- x + g + rnorm(N)
Los dos grupos están muy próximos, y una regresión sólo sobre la variable color muestra que el color no es significativo.
L1 <- lm(y ~ g)
summary(L1)
Call:
lm(formula = y ~ g)
Residuals:
Min 1Q Median 3Q Max
-49.990 -25.091 -0.475 25.447 49.511
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.885 6.025 8.114 1.48e-10 ***
g 2.972 8.520 0.349 0.729
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 30.12 on 48 degrees of freedom
Multiple R-squared: 0.002528, Adjusted R-squared: -0.01825
F-statistic: 0.1217 on 1 and 48 DF, p-value: 0.7288
Sin embargo, sabemos cómo y
se construye y puede ver que g
tiene un efecto absolutamente lineal sobre y
. Si consideramos la covariable x
reducimos la varianza condicional de aproximadamente $30$ hasta aproximadamente $1$ permitiendo el efecto de g
ser evidente.
L2 <- lm(y ~ g + x)
summary(L2)
Call:
lm(formula = y ~ g + x)
Residuals:
Min 1Q Median 3Q Max
-2.64091 -0.69691 0.07407 0.55674 1.38453
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.209967 0.274293 -0.765 0.447809
g 0.926162 0.251351 3.685 0.000591 ***
x 1.002360 0.004267 234.893 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.8881 on 47 degrees of freedom
Multiple R-squared: 0.9992, Adjusted R-squared: 0.9991
F-statistic: 2.766e+04 on 2 and 47 DF, p-value: < 2.2e-16