Hace falta muy poca correlación entre las variables independientes para que esto ocurra.
Para ver por qué, pruebe lo siguiente:
-
Dibuja 50 conjuntos de diez vectores $(x_1, x_2, \ldots, x_{10})$ con coeficientes iid normales.
-
Computar $y_i = (x_i + x_{i+1})/\sqrt{2}$ para $i = 1, 2, \ldots, 9$ . Esto hace que el $y_i$ individualmente normales pero con algunas correlaciones entre ellos.
-
Computar $w = x_1 + x_2 + \cdots + x_{10}$ . Tenga en cuenta que $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$ .
-
Añade un error independiente normalmente distribuido a $w$ . Con un poco de experimentación descubrí que $z = w + \varepsilon$ con $\varepsilon \sim N(0, 6)$ funciona bastante bien. Así, $z$ es la suma de los $x_i$ más algún error. También es la suma de algunos de el $y_i$ y el mismo error.
Consideraremos el $y_i$ para ser las variables independientes y $z$ la variable dependiente.
A continuación se muestra una matriz de dispersión de uno de estos conjuntos de datos, con $z$ a lo largo de la parte superior e izquierda y el $y_i$ proceder en orden.
Las correlaciones previstas entre $y_i$ y $y_j$ son $1/2$ cuando $|i-j|=1$ y $0$ por lo demás. Las correlaciones realizadas llegan al 62%. Aparecen como gráficos de dispersión más ajustados junto a la diagonal.
Mira la regresión de $z$ contra el $y_i$ :
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
La estadística F es muy significativa, pero ninguno de las variables independientes es, incluso sin ningún ajuste para las 9 de ellas.
Para ver lo que sucede, considere la regresión de $z$ contra sólo la numeración impar $y_i$ :
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Algunas de estas variables son muy significativas, incluso con un ajuste de Bonferroni. (Hay mucho más que se puede decir mirando estos resultados, pero nos alejaría del punto principal).
La intuición detrás de esto es que $z$ depende principalmente de un subconjunto de variables (pero no necesariamente de un único subconjunto). El complemento de este subconjunto ( $y_2, y_4, y_6, y_8$ ) no añade prácticamente ninguna información sobre $z$ debido a las correlaciones -por leves que sean- con el propio subconjunto.
Este tipo de situación se dará en análisis de series temporales . Podemos considerar que los subíndices son tiempos. La construcción del $y_i$ ha inducido una correlación serial de corto alcance entre ellos, al igual que muchas series temporales. Debido a esto, perdemos poca información al submuestrear las series a intervalos regulares.
Una conclusión podemos sacar de esto es que cuando demasiados Las variables que se incluyen en un modelo pueden enmascarar las verdaderamente significativas. La primera señal de esto es el estadístico F global altamente significativo acompañado de pruebas t no tan significativas para los coeficientes individuales. (Incluso cuando algunas de las variables son individualmente significativas, esto no significa automáticamente que las otras no lo sean. Ese es uno de los defectos básicos de las estrategias de regresión por pasos: son víctimas de este problema de enmascaramiento). Por cierto, el factores de inflación de varianza en la primera regresión oscilan entre 2,55 y 6,09, con una media de 4,79: justo en el límite para diagnosticar cierta multicolinealidad según las reglas empíricas más conservadoras; muy por debajo del umbral según otras reglas (donde 10 es un límite superior).
2 votos
¿La constante también es insignificante? ¿Cuántos casos hay? ¿Cuántas variables?
0 votos
¿Cómo se diagnostica la multicolinealidad? Hay muchos métodos, algunos son más informativos que otros. Cuanto más nos diga, mejor podrá responder la comunidad.
5 votos
Esta pregunta se ha convertido en una FAQ. Algunas de las respuestas aquí fueron fusionadas de hilos sustancialmente similares.
3 votos
Véase también aquí: ¿cómo puede una regresión ser significativa y que todos los predictores no sean significativos? y para un debate sobre el caso contrario, véase aquí: prueba t significativa frente a estadístico F no significativo .
0 votos
Tuve el mismo problema y ninguna de las respuestas anteriores pudo ayudarme. Ahora sé la respuesta (al menos a mi problema): el valor F del modelo 2 puede ser significativo, porque tienes la misma 'constante' (variable) que en el modelo 1 (cuyo valor F también es significativo). Tienes que mirar la tabla llamada 'Resumen del modelo' en la columna 'Sig. F Change' para ver si el cambio en R cuadrado es significativo (para el modelo 2). Si éste es significativo, los valores b también deberían serlo. Puede ignorar totalmente el valor F.
1 votos
Aunque las tres respuestas dicen "multicolinealidad", en realidad se trata de una circunstancia especial. El punto de usar una prueba F en primer lugar es que los valores p individuales para un grupo de regresores pueden dar información contradictoria sobre la importancia del grupo en su conjunto. Véase los hilos relacionados a los que enlaza @gung.