El tema sobre el que pregunta es multicolinealidad . Tal vez quieras leer algunos de los hilos sobre CV categorizados bajo el multicolinealidad etiqueta. @whuber's respuesta enlazada arriba en particular, también merece su tiempo.
La afirmación de que "si dos predictores están correlacionados y ambos se incluyen en un modelo, uno será insignificante", no es correcta. Si existe un efecto real de una variable, la probabilidad de que esa variable sea significativa depende de varias cosas, como la magnitud del efecto, la magnitud de la varianza del error, la varianza de la propia variable, la cantidad de datos que se tenga y el número de otras variables en el modelo. El hecho de que las variables estén correlacionadas también es relevante, pero no anula estos hechos. Considere la siguiente demostración sencilla en R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
La correlación entre las dos variables es la más baja en el primer ejemplo y la más alta en el tercero, pero ninguna de las dos variables es significativa en el primer ejemplo y ambas lo son en el último. La magnitud de los efectos es idéntica en los tres casos, y las varianzas de las variables y los errores deberían ser similares (son estocásticos, pero extraídos de poblaciones con la misma varianza). El patrón que vemos aquí se debe principalmente a mi manipulación de la $N$ s para cada caso.
El concepto clave que hay que entender para resolver sus dudas es el factor de inflación de la varianza (VIF). El VIF es la medida en que la varianza de su coeficiente de regresión es mayor de lo que habría sido si la variable hubiera estado completamente descorrelacionada con todas las demás variables del modelo. Tenga en cuenta que el VIF es un factor multiplicativo, si la variable en cuestión no está correlacionada el VIF=1. Una comprensión sencilla del VIF es la siguiente: se puede ajustar un modelo que predice una variable (digamos, $X_1$ ) de todas las demás variables de su modelo (digamos, $X_2$ ), y obtener un múltiplo $R^2$ . El VIF para $X_1$ sería $1/(1-R^2)$ . Digamos que el VIF para $X_1$ fueron $10$ (a menudo considerado un umbral de multicolinealidad excesiva), entonces la varianza de la distribución muestral del coeficiente de regresión para $X_1$ sería $10\times$ más grande de lo que hubiera sido si $X_1$ no se ha correlacionado en absoluto con las demás variables del modelo.
Pensar en lo que ocurriría si se incluyeran ambas variables correlacionadas frente a una sola es similar, pero algo más complicado que el enfoque comentado anteriormente. Esto se debe a que no incluir una variable significa que el modelo utiliza menos grados de libertad, lo que cambia la varianza residual y todo lo que se calcula a partir de ella (incluida la varianza de los coeficientes de regresión). Además, si la variable no incluida está realmente asociada a la respuesta, la varianza de la respuesta debida a esa variable se incluirá en la varianza residual, haciéndola mayor de lo que sería de otro modo. Por lo tanto, varias cosas cambian simultáneamente (la variable está correlacionada o no con otra variable, y la varianza residual), y el efecto preciso de la eliminación / inclusión de la otra variable dependerá de cómo se compensen. La mejor manera de pensar en esta cuestión se basa en el contrafactual de cómo el modelo diferiría si las variables estuvieran descorrelacionadas en lugar de correlacionadas, en lugar de incluir o excluir una de las variables.
Una vez comprendido el VIF, he aquí las respuestas a sus preguntas:
- Dado que la varianza de la distribución muestral del coeficiente de regresión sería mayor (por un factor del VIF) si estuviera correlacionado con otras variables del modelo, los valores p serían mayores (es decir, menos significativos) de lo que serían en caso contrario.
- Las varianzas de los coeficientes de regresión serían mayores, como ya se ha comentado.
- En general, esto es difícil de saber sin resolver el modelo. Normalmente, si sólo uno de los dos es significativo, será el que tenga la mayor correlación bivariada con $Y$ .
- El modo en que cambiarían los valores predichos y su varianza es bastante complicado. Depende de la intensidad de la correlación de las variables y de la forma en que aparezcan asociadas a su variable de respuesta en sus datos. Con respecto a esta cuestión, puede ayudarle a leer mi respuesta aquí: ¿Existe una diferencia entre "controlar" e "ignorar" otras variables en la regresión múltiple?