6 votos

Importancia de los coeficientes de regresión y su igualdad

Supongamos que queremos hacer una regresión $y$ en $x_1$ y $x_2$ es decir

$$ y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \varepsilon \hspace{1cm} (1)$$

¿Es posible, en principio, que simultáneamente:

  • $\beta_1$ es estadísticamente significativa pero $\beta_2$ es no mientras que
  • $\beta_1$ equivale estadísticamente a $\beta_2$

?

8voto

jldugger Puntos 7490

Sí. Esta respuesta interpreta la pregunta de la siguiente manera:

  • $\beta_1$ es significativamente diferente de cero en el modelo completo

    $$y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \varepsilon$$

  • $\beta_2$ no es significativamente diferente de cero en el modelo completo.

  • O bien (a) $\beta_1=\beta_2$ o (b) una prueba de $H_0:\beta_1=\beta_2$ no es significativo. Esto último equivale a que el modelo completo no es significativamente mejor que el modelo reducido

    $$y = \alpha + \beta(x_1 + x_2) + \varepsilon.$$

Intuitivamente, $y$ debe tener una relación lineal detectable con $x_1$ pero no con $x_2$ aunque los coeficientes ("pendientes") de esas relaciones sean los mismos. Esto puede ocurrir cuando la extensión de $x_1$ en los datos es sustancialmente mayor que la dispersión de $x_2$ La mayor difusión de $x_1$ inducirán mayores cambios en $y$ incluso cuando $\beta_1 \approx \beta_2$ , haciendo que $\beta_1$ más fácilmente detectable que $\beta_2$ .

Para ilustrar, He jugado con (a) la cantidad de datos $n$ y (b) la varianza de $\varepsilon$ para producir este fenómeno. Los datos son

$$(x_1, x_2, y) = ((1, 2, \ldots, 2n), (1,\ldots,1,-1,\ldots,-1), x_1+x_2+\varepsilon)$$

donde $\varepsilon$ se distribuyen de forma independiente e idéntica con una media de cero y una desviación estándar de $3$ . Como $n$ crece, $x_1$ se extiende más (de $1$ a través de $2n$ ) mientras que $x_2$ está confinado en el intervalo $[-1,1]$ . El verdadero la relación subyacente es $\alpha=0, \beta_1=\beta_2=1$ .

Lo siguiente es R para generar este ejemplo.

n <- 12
x1 <- 1:(2*n)
x2 <- c(rep(-1,n), rep(1,n))
set.seed(17)
y <- x1 + x2 + rnorm(2*n, sd=3)
  1. Aquí está el ajuste del modelo completo.

    > summary(fit.full <- lm(y ~ x1+x2))
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  -0.5223     1.8358  -0.284    0.779    
    x1            1.1400     0.1416   8.053 7.41e-08 ***
    x2            0.4886     0.9800   0.499    0.623    

    $\beta_1$ es significativo en cualquier umbral razonable ( $p$ es esencialmente cero), mientras que $\beta_2$ no es significativa en ningún umbral razonable ( $p=0.623$ ).

  2. El modelo completo no supone una mejora significativa respecto al modelo completo ( $p = 0.5618$ ):

    >fit.partial <- lm(y ~ I(x1+x2))
    >anova(fit.partial, fit.full)
    
    Analysis of Variance Table
    
    Model 1: y ~ I(x1 + x2)
    Model 2: y ~ x1 + x2
      Res.Df    RSS Df Sum of Sq      F Pr(>F)
    1     22 122.36                           
    2     21 120.37  1    1.9924 0.3476 0.5618

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X