2 votos

diferencia en el valor p en la regresión lineal simple frente a la múltiple

Supongamos que tenemos 3 variables: Y , X , Z.

entonces tenemos :

Regresión simple : $ Y = aX+b$

Regresión múltiple : $Y = aX + bZ + c$

Sé que en la regresión simple podemos tener un p-valor bajo (que muestra que existe una relación entre X e Y) y un p-valor alto en la Regresión Lineal Múltiple que está causada por la colinealidad entre X , Z .

Pero, ¿es posible al revés? Es decir, ¿es posible tener un valor p alto en la regresión simple y un valor p bajo en la regresión múltiple? Si es posible, ¿cuál sería la razón?

Gracias.

1voto

Dave Puntos 76

En cierto sentido, esta es la razón por la que hacemos la regresión, para reducir la varianza de la distribución condicional y, con suerte, permitir que la señal del efecto de interés atraviese el ruido reducido.

Consideremos la siguiente situación en la que queremos saber si el grupo de color g afecta a y .

set.seed(2022)
N <- 50
x <- seq(0, 100, 100/(N - 1))
g <- rep(c(0, 1), N/2)
y <- x + g + rnorm(N)

enter image description here

Los dos grupos están muy próximos, y una regresión sólo sobre la variable color muestra que el color no es significativo.

L1 <- lm(y ~ g)
summary(L1)

Call:
lm(formula = y ~ g)

Residuals:
    Min      1Q  Median      3Q     Max 
-49.990 -25.091  -0.475  25.447  49.511 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   48.885      6.025   8.114 1.48e-10 ***
g              2.972      8.520   0.349    0.729    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 30.12 on 48 degrees of freedom
Multiple R-squared:  0.002528,  Adjusted R-squared:  -0.01825 
F-statistic: 0.1217 on 1 and 48 DF,  p-value: 0.7288

Sin embargo, sabemos cómo y se construye y puede ver que g tiene un efecto absolutamente lineal sobre y . Si consideramos la covariable x reducimos la varianza condicional de aproximadamente $30$ hasta aproximadamente $1$ permitiendo el efecto de g ser evidente.

L2 <- lm(y ~ g + x)
summary(L2)

Call:
lm(formula = y ~ g + x)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.64091 -0.69691  0.07407  0.55674  1.38453 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.209967   0.274293  -0.765 0.447809    
g            0.926162   0.251351   3.685 0.000591 ***
x            1.002360   0.004267 234.893  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8881 on 47 degrees of freedom
Multiple R-squared:  0.9992,    Adjusted R-squared:  0.9991 
F-statistic: 2.766e+04 on 2 and 47 DF,  p-value: < 2.2e-16

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X