91 votos

¿Por qué es posible obtener un estadístico F significativo (p<.001) pero pruebas t de regresores no significativas?

En una regresión lineal múltiple, ¿por qué es posible tener un estadístico F altamente significativo (p<.001) pero tener valores p muy altos en todas las pruebas t de los regresores?

En mi modelo, hay 10 regresores. Uno de ellos tiene un valor p de 0,1 y el resto supera el 0,9


Para tratar este problema, véase el pregunta de seguimiento .

2 votos

¿La constante también es insignificante? ¿Cuántos casos hay? ¿Cuántas variables?

0 votos

¿Cómo se diagnostica la multicolinealidad? Hay muchos métodos, algunos son más informativos que otros. Cuanto más nos diga, mejor podrá responder la comunidad.

5 votos

Esta pregunta se ha convertido en una FAQ. Algunas de las respuestas aquí fueron fusionadas de hilos sustancialmente similares.

126voto

jldugger Puntos 7490

Hace falta muy poca correlación entre las variables independientes para que esto ocurra.

Para ver por qué, pruebe lo siguiente:

  • Dibuja 50 conjuntos de diez vectores $(x_1, x_2, \ldots, x_{10})$ con coeficientes iid normales.

  • Computar $y_i = (x_i + x_{i+1})/\sqrt{2}$ para $i = 1, 2, \ldots, 9$ . Esto hace que el $y_i$ individualmente normales pero con algunas correlaciones entre ellos.

  • Computar $w = x_1 + x_2 + \cdots + x_{10}$ . Tenga en cuenta que $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$ .

  • Añade un error independiente normalmente distribuido a $w$ . Con un poco de experimentación descubrí que $z = w + \varepsilon$ con $\varepsilon \sim N(0, 6)$ funciona bastante bien. Así, $z$ es la suma de los $x_i$ más algún error. También es la suma de algunos de el $y_i$ y el mismo error.

Consideraremos el $y_i$ para ser las variables independientes y $z$ la variable dependiente.

A continuación se muestra una matriz de dispersión de uno de estos conjuntos de datos, con $z$ a lo largo de la parte superior e izquierda y el $y_i$ proceder en orden.

Scatterplot matrix

Las correlaciones previstas entre $y_i$ y $y_j$ son $1/2$ cuando $|i-j|=1$ y $0$ por lo demás. Las correlaciones realizadas llegan al 62%. Aparecen como gráficos de dispersión más ajustados junto a la diagonal.

Mira la regresión de $z$ contra el $y_i$ :

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

La estadística F es muy significativa, pero ninguno de las variables independientes es, incluso sin ningún ajuste para las 9 de ellas.

Para ver lo que sucede, considere la regresión de $z$ contra sólo la numeración impar $y_i$ :

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Algunas de estas variables son muy significativas, incluso con un ajuste de Bonferroni. (Hay mucho más que se puede decir mirando estos resultados, pero nos alejaría del punto principal).

La intuición detrás de esto es que $z$ depende principalmente de un subconjunto de variables (pero no necesariamente de un único subconjunto). El complemento de este subconjunto ( $y_2, y_4, y_6, y_8$ ) no añade prácticamente ninguna información sobre $z$ debido a las correlaciones -por leves que sean- con el propio subconjunto.

Este tipo de situación se dará en análisis de series temporales . Podemos considerar que los subíndices son tiempos. La construcción del $y_i$ ha inducido una correlación serial de corto alcance entre ellos, al igual que muchas series temporales. Debido a esto, perdemos poca información al submuestrear las series a intervalos regulares.

Una conclusión podemos sacar de esto es que cuando demasiados Las variables que se incluyen en un modelo pueden enmascarar las verdaderamente significativas. La primera señal de esto es el estadístico F global altamente significativo acompañado de pruebas t no tan significativas para los coeficientes individuales. (Incluso cuando algunas de las variables son individualmente significativas, esto no significa automáticamente que las otras no lo sean. Ese es uno de los defectos básicos de las estrategias de regresión por pasos: son víctimas de este problema de enmascaramiento). Por cierto, el factores de inflación de varianza en la primera regresión oscilan entre 2,55 y 6,09, con una media de 4,79: justo en el límite para diagnosticar cierta multicolinealidad según las reglas empíricas más conservadoras; muy por debajo del umbral según otras reglas (donde 10 es un límite superior).

65voto

Eggs McLaren Puntos 945

Como menciona Rob, esto ocurre cuando hay variables muy correlacionadas. El ejemplo estándar que utilizo es la predicción del peso a partir del número de calzado. Se puede predecir el peso igualmente bien con la talla de zapato derecha o izquierda. Pero juntos no funciona.

Breve ejemplo de simulación

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

14 votos

Es interesante e importante observar que sus dos modelos predicen igualmente bien, en este caso. Las altas correlaciones entre predictores no son necesariamente un problema para la predicción. La multicolinealidad sólo es un problema cuando 1) los analistas intentan interpretar de forma inadecuada los coeficientes de la regresión múltiple; 2) el modelo no es estimable; y 3) los SE están inflados y los coeficientes son inestables.

1 votos

Entiendo que las dos variables están muy correlacionadas entre sí, por lo que el resultado de la prueba t no es significativo mientras que el resultado de la prueba F sí lo es. Pero, ¿por qué ocurre esto? Quiero decir, ¿cuál es la razón que subyace a este hecho?

44voto

Eric Davis Puntos 1542

Multicolinealidad

  • Como usted señala, y como se ha discutido en esta pregunta anterior Los altos niveles de multicolinealidad son una de las principales causas de una $R^2$ pero predictores estadísticamente no significativos.
  • Por supuesto, la multicolinealidad no se limita a un umbral absoluto. Los errores estándar de los coeficientes de regresión aumentarán a medida que aumenten las intercorrelaciones con el predictor principal.

Múltiples predictores casi significativos

  • Incluso si no hubiera multicolinealidad, se pueden obtener predictores no significativos y un modelo global significativo si dos o más predictores individuales están cerca de ser significativos y, por tanto, colectivamente, la predicción global supera el umbral de significación estadística. Por ejemplo, utilizando un alfa de 0,05, si tuviera dos predictores con valores p de 0,06 y 0,07, no me sorprendería que el modelo global tuviera una p<0,05.

43voto

Senseful Puntos 116

Esto ocurre cuando los predictores están muy correlacionados. Imagine una situación en la que sólo hay dos predictores con una correlación muy alta. Por separado, ambos están estrechamente correlacionados con la variable de respuesta. En consecuencia, la prueba F tiene un valor p bajo (está diciendo que los predictores juntos son altamente significativos para explicar la variación de la variable de respuesta). Pero la prueba t para cada predictor tiene un valor p alto porque después de tener en cuenta el efecto del otro predictor no queda mucho que explicar.

0 votos

Hola Rob, perdona que te moleste. He leído tu respuesta (porque ahora mismo me encuentro en la misma situación de la pregunta) pero no puedo entender lo que quieres decir con que "después de tener en cuenta el efecto del otro predictor no queda mucho que explicar". ¿Puedo pedirle que me lo explique? Muchas gracias.

3 votos

@yue86231 Significa que aunque tenemos un valor p para cada predictor, no podemos interpretar cada valor p de forma aislada. Cada prueba t de predictor sólo puede mostrar la significación de una variable después de que explica la varianza de todas las demás variables. Los coeficientes de regresión lineal y el error estándar se producen al mismo tiempo, por así decirlo, y los dos predictores se reducen mutuamente la importancia.

12voto

StasK Puntos 19497

Considere el siguiente modelo: $ X_1 \sim N(0,1)$ , $X_2 = a X_1 + \delta$ , $Y = bX_1 + cX_2 + \epsilon$ , $\delta$ , $\epsilon$ y $X_1$ son independientes entre sí $N(0,1)$ .

Entonces $${\rm Cov}(X_2,Y) = {\rm E}[(aX_1+\delta)(bX_1+cX_2+\epsilon)]={\rm E}[(aX_1+\delta)(\{b+ac\}X_1+c\delta+\epsilon)]=a(b+ac)+c$$

Podemos ponerlo a cero con, por ejemplo $a=1$ , $b=2$ y $c=-1$ . Sin embargo, todas las relaciones estarán obviamente ahí y serán fácilmente detectables con el análisis de regresión.

Has dicho que entiendes mejor el tema de que las variables estén correlacionadas y que la regresión no sea significativa; probablemente significa que te han condicionado las frecuentes menciones a la multicolinealidad, pero tendrías que reforzar tu comprensión de la geometría de los mínimos cuadrados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X