4 votos

Muy significativo el coeficiente de no aumentar R2

Tengo una regresión lineal múltiple con un par de variables independientes. La mayoría de ellos son significativos a p<0.001. El modelo tiene un R2 de 0,83. Cuando puedo añadir más variables, las viejas y las nuevas variables son altamente significativas, pero R2 no mejora en absoluto.

¿Qué tiene que decirme?

5voto

Brandon Grossutti Puntos 140

No, no creo que usted debe estar preocupado por el R-cuadrado directamente. He aquí un ejemplo.

R cuadrado debe estar aumentando, pero a causa de precisión, podría no ver.

Primero generar algunos datos:

library(MASS)
sigma <- matrix(c(1.0, 0.8, 0.8, 0.4, 
                  0.8, 1.0, 0.7, 0.4, 
                  0.8, 0.7, 1.0, 0.4,              
                  0.4, 0.4, 0.4, 1.0),nrow=4)

d <- as.data.frame(mvrnorm(Sigma=sigma, n=2000, mu=rep(0, 4)))
names(d) <- c("y", "x1", "x2", "x3")

Ejecutar dos modelos, uno con una predicción adicional.

> model1 <- lm(y ~ x1 + x2, data=d)
> model2 <- lm(y ~ x1 + x2 + x3, data=d)
> summary(model1)

Call:
lm(formula = y ~ x1 + x2, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.76599 -0.32031 -0.00252  0.31977  1.58157 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.008183   0.010902   0.751    0.453    
x1          0.475810   0.015359  30.980   <2e-16 ***
x2          0.470222   0.015263  30.808   <2e-16 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.4873 on 1997 degrees of freedom
Multiple R-squared: 0.7615, Adjusted R-squared: 0.7613 
F-statistic:  3188 on 2 and 1997 DF,  p-value: < 2.2e-16 

> summary(model2)

Call:
lm(formula = y ~ x1 + x2 + x3, data = d)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.6898 -0.3148  0.0086  0.3269  1.5480 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.007822   0.010861   0.720    0.471    
x1          0.464192   0.015573  29.808  < 2e-16 ***
x2          0.460004   0.015417  29.837  < 2e-16 ***
x3          0.048184   0.012008   4.013 6.22e-05 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.4855 on 1996 degrees of freedom
Multiple R-squared: 0.7634, Adjusted R-squared: 0.7631 
F-statistic:  2147 on 3 and 1996 DF,  p-value: < 2.2e-16 

En el primer modelo, R-cuadrado es de 0,76, en el segundo modelo, R-cuadrado es de 0,76, pero el p-valor de x3, que se añadió en el segundo modelo es altamente significativo.

Usted puede probar el cambio en R cuadrado con el ANOVA comando:

> anova(model1, model2)
Analysis of Variance Table

Model 1: y ~ x1 + x2
Model 2: y ~ x1 + x2 + x3
  Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
1   1997 474.26                                  
2   1996 470.46  1    3.7953 16.102 6.223e-05 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

El p-valor es el mismo que el p-valor de x3 en el segundo modelo. El cambio en R cuadrado era pequeño, pero no fue significativo. Que puede suceder, no es necesariamente un problema.

1voto

Nick Sergeant Puntos 3792

Esto es porque en un cierto punto usted está agregando variables independientes que explican de manera similar a su variable de respuesta. En esta situación, estas variables son, posiblemente, multi colineales.

Ejemplo:

Un modelo que tiene una cierta circunferencia área como una función de las variables independientes como la circunferencia del diámetro y la circunferencia del perímetro probablemente iba a realizar de la misma manera como si el modelo de regresión depende de sólo una de estas variables independientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X