Primero, vamos a distinguir entre perfecto multi-colinealidad (modelo de la matriz no es de rango completo, de modo que de costumbre matriz de inversiones fallar. Por lo general, debido a misspecification de los predictores) y no-ideal multi-colinealidad (algunos de los predictores se correlacionan sin dar lugar a problemas de cálculo). Esta respuesta es sobre el segundo tipo, que se produce en casi cualquier multivariable modelo lineal desde los predictores no tienen razón para estar correlacionadas.
Un ejemplo sencillo con fuertes multi-colinealidad es una regresión cuadrática. Así que el único de los predictores se $X_1 = X$$X_2=X^2$:
set.seed(60)
X1 <- abs(rnorm(60))
X2 <- X1^2
cor(X1,X2) # Result: 0.967
Este ejemplo ilustra sus preguntas/afirmaciones:
1. La multicolinealidad no afecta a la regresión del modelo como un todo.
Echemos un vistazo a un modelo de ejemplo:
Y <- 0.5*X1 + X2 + rnorm(60)
fit <- lm(Y~X1+X2)
summary(fit)
#Result
[...]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.3439 0.3214 -1.070 0.289
X1 1.3235 0.8323 1.590 0.117
X2 0.5861 0.3931 1.491 0.141
Residual standard error: 1.014 on 57 degrees of freedom
Multiple R-squared: 0.7147, Adjusted R-squared: 0.7047
F-statistic: 71.39 on 2 and 57 DF, p-value: 2.996e-16
Global declaraciones sobre el modelo está muy bien:
- R-Cuadrado: $X$ explica aproximadamente el 71% de la variabilidad de $Y$
- Global test F: En el 5% de nivel, que realmente hay una asociación entre el $X$ $Y$
- Predicciones: Para las personas con $X$-valor 2, una mejor estimación de su $Y$-valor es
$$
-0.3439 + 1.3235\cdot 2 + 0.5861 \cdot 2^2 = 4.6475
$$
2. Pero si empezamos a observar el efecto de cada variable Xs en las variables explicadas, entonces vamos a tener inexacta estimaciones.
Las estimaciones son correctas, este no es el problema. El problema con la interpretación estándar de los aislados de efectos es que tenemos el resto de los predictores fijo, lo cual es extraño si existen fuertes correlaciones con los otros predictores. En nuestro ejemplo, incluso es incorrecto decir "el promedio de $Y$ valor aumenta por 1.3235 si se aumenta el $X_1$ el 1 y mantenga $X_2$ fijo, debido a que $X_2 = X_1^2$. Ya que no podemos interpretar aislado de los efectos de manera descriptiva, también, todas las inductivo declaraciones acerca de ellos no son útiles: Mira la prueba t en la salida. Ambos están por encima del 5%, aunque en el global de la prueba de asociación nos da un p-valor inferior al 5%. La hipótesis nula de un t-test es "el efecto de la predictor es cero" o, en otras palabras, "la inclusión de este predictor no aumenta el verdadero R-cuadrado en la población". Debido a $X_1$ $X_2$ son casi perfectamente correlacionados, el modelo tiene casi la misma R-squared si dejamos caer una de las dos variables:
summary(lm(Y~X1))
# Gives
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.7033 0.2148 -3.274 0.00179 **
X1 2.5232 0.2151 11.733 < 2e-16 ***
Residual standard error: 1.025 on 58 degrees of freedom
Multiple R-squared: 0.7036, Adjusted R-squared: 0.6985
F-statistic: 137.7 on 1 and 58 DF, p-value: < 2.2e-16
Esto ya muestra la primera parte de la declaración:
Otra cosa a tener en cuenta es que las pruebas sobre el individuo, los coeficientes de cada uno de suponer que el resto de los predictores en el modelo. En otras palabras, cada predictor no es importante siempre y como todos los otros predictores en el modelo. Debe haber algún tipo de interacción o interdependencia entre dos o más de sus predictores.
La última declaración aquí es claramente erróneo.