6 votos

Intuición de las consecuencias de la multicolinealidad

Así que tenemos una ecuación de regresión con una variables explicadas y 10 variables explicativas.

Lo que he leído hasta ahora:

  1. La multicolinealidad no afecta a la regresión del modelo como un todo.

  2. Pero si empezamos a mirar el efecto individual de cada variable predictora Xs en las variables explicadas, entonces vamos a tener inexacta estimaciones.

He tratado de empezar a pensar de forma intuitiva, sobre ella, como sigue:

  • Alta Multicolinealidad significa que en una matriz de dos o más filas/columnas son linealmente dependientes los unos de los otros. En otras palabras, en un espacio 3-dimensional existen 2 vectores que tienen (casi) la misma dirección magnitudes diferentes (esto es correcto?)

Agradecería si alguien podría explicar cómo esto se traduce en "la multicolinealidad no afectan a la regresión como un todo, sino sólo una de las variables del coeficiente de estimaciones".

También, podría alguien explicar la instrucción en negrita? No puedo hacer sentido de ella:

Otra cosa a tener en cuenta es que las pruebas en el individuo los coeficientes de cada uno de suponer que el resto de los predictores son en la modelo. En otras palabras, cada predictor no es importante siempre y cuando todos los de los otros predictores en el modelo. Debe haber alguna la interacción o interdependencia entre dos o más de sus predictores.

que fue una respuesta a esta pregunta: ¿Cómo puede una regresión ser importante, pero todos los predictores insignificante?

12voto

Bill Puntos 16

Primero, vamos a distinguir entre perfecto multi-colinealidad (modelo de la matriz no es de rango completo, de modo que de costumbre matriz de inversiones fallar. Por lo general, debido a misspecification de los predictores) y no-ideal multi-colinealidad (algunos de los predictores se correlacionan sin dar lugar a problemas de cálculo). Esta respuesta es sobre el segundo tipo, que se produce en casi cualquier multivariable modelo lineal desde los predictores no tienen razón para estar correlacionadas.

Un ejemplo sencillo con fuertes multi-colinealidad es una regresión cuadrática. Así que el único de los predictores se $X_1 = X$$X_2=X^2$:

set.seed(60)

X1 <- abs(rnorm(60))
X2 <- X1^2
cor(X1,X2)   # Result: 0.967

Este ejemplo ilustra sus preguntas/afirmaciones:

1. La multicolinealidad no afecta a la regresión del modelo como un todo.

Echemos un vistazo a un modelo de ejemplo:

Y <- 0.5*X1 + X2 + rnorm(60)
fit <- lm(Y~X1+X2)
summary(fit)

#Result
[...]

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  -0.3439     0.3214  -1.070    0.289
X1            1.3235     0.8323   1.590    0.117
X2            0.5861     0.3931   1.491    0.141

Residual standard error: 1.014 on 57 degrees of freedom
Multiple R-squared:  0.7147,    Adjusted R-squared:  0.7047 
F-statistic: 71.39 on 2 and 57 DF,  p-value: 2.996e-16

Global declaraciones sobre el modelo está muy bien:

  • R-Cuadrado: $X$ explica aproximadamente el 71% de la variabilidad de $Y$
  • Global test F: En el 5% de nivel, que realmente hay una asociación entre el $X$ $Y$
  • Predicciones: Para las personas con $X$-valor 2, una mejor estimación de su $Y$-valor es $$ -0.3439 + 1.3235\cdot 2 + 0.5861 \cdot 2^2 = 4.6475 $$

2. Pero si empezamos a observar el efecto de cada variable Xs en las variables explicadas, entonces vamos a tener inexacta estimaciones.

Las estimaciones son correctas, este no es el problema. El problema con la interpretación estándar de los aislados de efectos es que tenemos el resto de los predictores fijo, lo cual es extraño si existen fuertes correlaciones con los otros predictores. En nuestro ejemplo, incluso es incorrecto decir "el promedio de $Y$ valor aumenta por 1.3235 si se aumenta el $X_1$ el 1 y mantenga $X_2$ fijo, debido a que $X_2 = X_1^2$. Ya que no podemos interpretar aislado de los efectos de manera descriptiva, también, todas las inductivo declaraciones acerca de ellos no son útiles: Mira la prueba t en la salida. Ambos están por encima del 5%, aunque en el global de la prueba de asociación nos da un p-valor inferior al 5%. La hipótesis nula de un t-test es "el efecto de la predictor es cero" o, en otras palabras, "la inclusión de este predictor no aumenta el verdadero R-cuadrado en la población". Debido a $X_1$ $X_2$ son casi perfectamente correlacionados, el modelo tiene casi la misma R-squared si dejamos caer una de las dos variables:

summary(lm(Y~X1))

# Gives

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.7033     0.2148  -3.274  0.00179 ** 
X1            2.5232     0.2151  11.733  < 2e-16 ***

Residual standard error: 1.025 on 58 degrees of freedom
Multiple R-squared:  0.7036,    Adjusted R-squared:  0.6985 
F-statistic: 137.7 on 1 and 58 DF,  p-value: < 2.2e-16

Esto ya muestra la primera parte de la declaración:

Otra cosa a tener en cuenta es que las pruebas sobre el individuo, los coeficientes de cada uno de suponer que el resto de los predictores en el modelo. En otras palabras, cada predictor no es importante siempre y como todos los otros predictores en el modelo. Debe haber algún tipo de interacción o interdependencia entre dos o más de sus predictores.

La última declaración aquí es claramente erróneo.

4voto

Zizzencs Puntos 1358

Otro problema, además de a las @Michael dio, es que cuando hay una fuerte cerca-colinealidad, pequeños cambios en los datos de entrada pueden llevar a grandes cambios en la salida.

He hecho algunos datos (teniendo suposiciones salvajes en el promedio de las longitudes de las piernas y el torso (en pulgadas) y el peso (en libras) para los seres humanos adultos).

set.seed(1230101)
lengthleg <- rnorm(100, 30, 5)
lengthtorso <- lengthleg + rnorm(100, 0, 1)
weight <- 1.2*lengthleg + 1.8*lengthtorso + rnorm(100, 0, 10)

m1 <- lm(weight~lengthleg + lengthtorso)
coef(m1)

la primera vez que pasa, tengo coeficientes de -5.93, 0.43 y 2.73. Volver a ejecutar todo excepto set.seed me dio -9.91, 1.12 y 2.18.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X