Para entender lo que puede pasar, es muy instructivo para generar (y analizar) los datos que se comportan de la manera descrita.
Por simplicidad, vamos a olvidarnos de que la sexta variable independiente. Así, la pregunta que describe las regresiones de una variable dependiente $y$ contra cinco variables independientes $x_1, x_2, x_3, x_4, x_5$, en el que
Cada ordinaria de regresión $y \sim x_i$ es significativo en los niveles de $0.01$ a menos de $0.001$.
La regresión múltiple $y \sim x_1 + \cdots + x_5$ los rendimientos de los coeficientes significativos sólo para$x_1$$x_2$.
Todos varianza de la inflación de los factores (VIFs) son bajos, lo que indica buena acondicionado en el diseño de la matriz (es decir, la falta de colinealidad entre las $x_i$).
Vamos a hacer que esto suceda de la siguiente manera:
Generar $n$ distribución normal, los valores de $x_1$$x_2$. (Vamos a elegir a $n$ después).
Deje $y = x_1 + x_2 + \varepsilon$ donde $\varepsilon$ es independiente de error normal de media de $0$. Un poco de ensayo y error es necesario para encontrar la desviación estándar para $\varepsilon$; $1/100$ funciona bien (y es algo dramático: $y$ es extremadamente correlaciona bien con $x_1$$x_2$, incluso a pesar de que es sólo moderadamente correlacionados con $x_1$ $x_2$ individualmente).
Vamos $x_j$ = $x_1/5 + \delta$, $j=3,4,5$, donde $\delta$ es independiente de la normal estándar de error. Esto hace que $x_3,x_4,x_5$ sólo ligeramente dependiente de $x_1$. Sin embargo, a través de la estrecha correlación entre el$x_1$$y$, esto induce a una pequeña correlación entre el $y$ y estos $x_j$.
He aquí el problema: si realizamos $n$ lo suficientemente grande, estos leve correlaciones dará como resultado coeficientes significativos, aunque $y$ es casi en su totalidad ", explicó" por sólo las dos primeras variables.
Me encontré con que $n=500$ funciona bien para reproducir el reporte de los p-valores. He aquí un diagrama de dispersión de la matriz de todas las seis variables:
Mediante la inspección de la columna de la derecha (o la fila inferior) usted puede ver que $y$ tiene una buena (positivo) correlación con el $x_1$ $x_2$ pero poco aparente correlación con las otras variables. Inspeccionando el resto de esta matriz, se puede ver que las variables independientes $x_1, \ldots, x_5$ parecen ser mutuamente correlacionadas (random $\delta$ máscara de la pequeña dependencias que sabemos que están allí). No hay datos excepcional, nada terriblemente periféricas o con un alto apalancamiento. Los histogramas muestran que las seis variables son aproximadamente distribuidos normalmente, por cierto: estos datos son normales y "plain vanilla" como uno podría desear.
En la regresión de $y$ contra $x_1$$x_2$, los valores de p son esencialmente 0. En cada una de las regresiones de $y$ contra $x_3$, $y$ contra $x_4$, e $y$ contra $x_5$, los valores de p son 0.0024, 0.0083, y 0.00064, respectivamente, es decir, son "muy importantes". Pero en el pleno de regresión múltiple, los correspondientes p-valores de inflar a .46, .36, y .52, respectivamente: no significativo. La razón para esto es que una vez $y$ se ha retrocedido en contra de $x_1$$x_2$, la única materia de la izquierda para "explicar" la pequeña cantidad de errores en los residuos, que será aproximada $\varepsilon$, y este error es casi completamente sin relación con el resto de $x_i$. ("Casi" es correcto: hay un pequeño relación inducida por el hecho de que los residuos se calcula en la parte de los valores de $x_1$ $x_2$ y el $x_i$, $i=3,4,5$, ¿tienen alguna relación débil a$x_1$$x_2$. Este residuo de la relación es prácticamente indetectable, aunque, como hemos visto.)
El acondicionamiento número de el diseño de la matriz es sólo 2.17: eso es muy bajo, mostrando ninguna indicación de alta multicolinealidad en absoluto. (Perfecto falta de colinealidad se vería reflejado en un número acondicionado de 1, pero en la práctica esto se ve sólo con datos artificiales y los experimentos diseñados. Acondicionamiento de los números en el rango 1-6 (o incluso mayor, con más variables) son comunes.) Esto completa la simulación: se ha reproducido con éxito todos los aspectos del problema.
La perspectiva importante de este análisis ofrece incluyen
los valores de p no nos dicen nada directamente acerca de colinealidad. Ellos dependen fuertemente de la cantidad de datos.
Las relaciones entre los valores de p en las regresiones múltiples y los valores de p en las regresiones (la participación de los subgrupos de la variable independiente) son complejos y generalmente impredecibles.
En consecuencia, como otros han argumentado, los valores de p no debe ser su única guía (o, incluso, su principal guía) para el modelo de selección.
Editar
No es necesario para $n$ a ser tan grande como $500$ estos fenómenos a aparecer. Inspirado por la información adicional en la pregunta, el siguiente es un conjunto de datos construido en una manera similar con $n=24$ (en este caso $x_j = 0.4 x_1 + 0.4 x_2 + \delta$$j=3,4,5$). Esto crea las correlaciones de 0,38 a entre 0.73$x_{1-2}$$x_{3-5}$. La condición de que el diseño de la matriz es de 9.05: un poco alto, pero no es terrible. (Algunas de las reglas de pulgar decir que la condición de números tan altos como 10 son ok.) Los p-valores de cada uno de regresiones en contra de $x_3, x_4, x_5$ 0.002, 0.015, y 0.008: significativo muy significativo. Por lo tanto, algunos multicolinealidad está involucrado, pero no tan grande que se podría trabajar para cambiarlo. La intuición fundamental sigue siendo el mismo: la significación y la multicolinealidad son cosas diferentes; sólo leve matemática restricciones de mantener entre ellos; y es posible que la inclusión o exclusión de una sola variable a tener efectos profundos sobre todos los valores de p, incluso sin grave de multicolinealidad ser un problema.
x1 x2 x3 x4 x5 y
-1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772
0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363
0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336
0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872
-0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272
0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453
1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248
0.936259 1.00507 1.56755 0.715845 1.50658 1.93177
-0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927
-0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199
-1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259
-0.55336 1.93245 1.34462 1.15979 2.25317 1.38259
1.6934 0.192212 0.965777 0.283766 3.63855 1.86975
-0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025
-0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332
-0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727
0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115
0.215779 2.233 0.33428 1.07424 0.815481 2.4511
1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711
-0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456
1.2487 1.03267 0.958559 1.26925 1.31709 2.26846
-0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697
-1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693
-1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185