5 votos

Cómo son regresión parcial pendientes calculadas en regresión múltiple?

Estoy tratando de entender cómo regresión múltiple estadísticamente controles para los efectos de otras variables predictoras cuando el cálculo de regresión parcial de las laderas. En una regresión múltiple de Y~X1+X2, sería la regresión parcial pendiente de X1 ser dada por [Y]~[residuos de X1~X2], o [de los residuos de Y~X2] ~ [residuos de X1~X2]? Diferentes páginas de internet me dicen cosas diferentes.

He realizado algunas simulaciones para tratar y resolver esto (ver más abajo), y parece que ambos métodos dan el mismo estimaciones de las pendientes de regresión múltiple, pero sólo el último método tiene los mismos errores estándar alrededor de esas estimaciones. Esto me hace pensar que este último método es el que de regresión múltiple usos, pero sería bueno saber para seguro.

Del mismo modo, si quería parcela Y en contra de X1 para que yo pudiera visualizar cómo fuertemente los dos estaban relacionados, mientras que también el control por cualquier confusión con X2, me parcela [Y]~[residuos de X1~X2], o [de los residuos de Y~X2] ~ [residuos de X1~X2]? Estas dos parcelas en el código de abajo se ven muy diferentes en términos de la intensidad de la relación.

Gracias por tu ayuda,

Jay

#1. simulate data, where x1 and x2 are correlated due to lurking variable, 
#...and y is explained by both.
lurker <- rnorm(n=100)
x1 <- rnorm(n=100, mean=lurker*2, sd=1)
x2 <- rnorm(n=100, mean=lurker*5, sd=1)
y <- rnorm(n=100, mean=x1*2 + x2*5, sd=1)

#2. multiple regn model to estimate partial slopes:
summary(lm(y~x1+x2))      #partial slopes pretty close to simulated values

#3. calculate partial slopes manually, using either 
#....(1) Y~[resids of X1~X2] OR (2) [resids of Y~X2]~[resids of X1~X2]

  #3.a. based on (1) Y~[resids of X1~X2]
  m.x1x2 <- lm(x1~x2)
  resids.x1x2 <- m.x1x2$residuals
  summary(lm(y ~resids.x1x2))    #slope pretty close to true value, but conf intervals MUCH larger than those for MR estimate

  #3.b. based on (2) [resids of Y ~ X2]~[resids of X1~X2]
  m.y1x2 <- lm(y~x2)
  resids.y1x2 <- m.y1x2$residuals
  summary(lm(resids.y1x2 ~resids.x1x2))  #also very close to true value, but conf intervals now similar scale to those from MR.

  # plot the relationship between y and x1 after controlling for x2, based on the different methods:
    op <- par(mfrow=c(2,1))
    plot(y ~resids.x1x2)
    plot(resids.y1x2 ~resids.x1x2)
    par(op)

6voto

Jeff Bauer Puntos 236

Para evitar el ennegrecimiento del lugar, no voy a usar negrita símbolos -pero la respuesta será llevado a cabo en la forma de la matriz. Los vectores son vectores columna, una de las principales se denota la transpuesta.

Vamos a un modelo de regresión lineal

$$y = X_1b_1 + X_2b_2 + u_A \qquad [A]$$

Las ecuaciones normales para el estimador de MCO son

$$\begin{align} \left(X_1'X_1\right)b_1+\left(X_1'X_2\right)b_2=& X_1'y \qquad [1]\\ \\ \left(X_2'X_1\right)b_1+\left(X_2'X_2\right)b_2=& X_2'y \qquad [2]\\ \end{align}$$ La solución de $[2]$ $b_2$ hemos $$[2]\rightarrow b_2= \left(X_2'X_2\right)^{-1}X_2'y-\left(X_2'X_2\right)^{-1}\left(X_2'X_1\right)b_1$$

La inserción de esta en $[1]$ obtenemos $$\left(X_1'X_1\right)b_1+\left(X_1'X_2\right)\left(X_2'X_2\right)^{-1}X_2'y-\left(X_1'X_2\right)\left(X_2'X_2\right)^{-1}\left(X_2'X_1\right)b_1= X_1'y $$

Recopilación de términos w.r.t $b_1$$y$, $$X_1'\left[I-X_2\left(X_2'X_2\right)^{-1}X_2'\right]X_1b_1= X_1'\left[I-X_2\left(X_2'X_2\right)^{-1}X_2'\right]y$$ $$\Rightarrow X_1'M_2X_1b_1 = X_1'M_2y \qquad [3]$$

donde $M_2$ es la "annihilator" o "residual maker"de la matriz relativa a $X_2$, es decir, la matriz que produce los residuos cuando una variable es una regresión en $X_2$, por la pre-multiplicando esta variable. Esta matriz es simétrica e idempotente, $M_2=M_2',\; M_2= M_2M_2$. Así que podemos escribir

$$(M_2X_1)'(M_2X_1)b_1 = (M_2X_1)'y$$ $$\Rightarrow R_{1\sim2}'R_{1\sim2}b_1=R_{1\sim2}'y \Rightarrow \hat b_1 = \left(R_{1\sim2}'R_{1\sim2}\right)^{-1}R_{1\sim2}'y\qquad [4]$$

donde $R_{1\sim2}$ denota el vector residual de la regresión de $X_1$$X_2$.

Esta última fórmula es exactamente la OLS fórmula del modelo de regresión $$y= R_{1\sim2}d_1+u_B \qquad [B]$$

Así eq. $[4]$ nos dice que el coeficiente estimado para $X_1$ que vamos a obtener en una regresión múltiple opción, será exactamente el mismo, con lo que obtendremos si nos la regresión de la variable dependiente en los residuos de la regresión de $X_1$$X_2$.

Consideremos ahora el segundo caso, la regresión de los residuos en los residuos. Este es el modelo

$$R_{y\sim2} = R_{1\sim2}c_1+u_C \Rightarrow (M_2y)= (M_2X_1)c_1 +u_C \qquad [C]$$

El estimador de MCO de $c$ es $$\hat c_1 = \left[(M_2X_1)'(M_2X_1)\right]^{-1}(M_2X_1)'(M_2y) \qquad [5]$$

Por las propiedades de las $M_2$ hemos $$(M_2X_1)'(M_2y) = X_1'M_2'M_2y=X_1'M_2M_2y=X_1'M_2y=X_1'M_2'y=(M_2X_1)'y$$ Tomando nota de que $M_2X_1 = R_{1\sim2}$ eq. $[5]$ se convierte en

$$\hat c_1= \left(R_{1\sim2}'R_{1\sim2}\right)^{-1}R_{1\sim2}'y \qquad [6]$$

que es idéntica a la eq. $[4]$, y por lo $ \hat c_1 = \hat d_1 =\hat b_1$. En otras palabras, los tres modelos matemáticamente idénticos resultados.

Ahora vamos a considerar la cuestión de la varianza del estimador. Modelos de $[B]$ $[C]$ tienen el mismo regresor de la matriz, entonces la pregunta es ¿qué sucede con el error en la estimación de varianzas, $\sigma^2_B$$\sigma^2_C$. Vamos a denotar $M(r)_{1\sim2}$ el destructor de la matriz de regresores $R_{1\sim2}$. Tiene propiedades análogas como $M_2$ Para el modelo $[B]$ hemos

$$u'_Bu_B = \left(M(r)_{1\sim2}y\right)'\left(M(r)_{1\sim2}y\right) = y'M(r)_{1\sim2}y \qquad [7]$$

mientras que para el modelo de $[C]$ hemos

$$u'_Cu_C = \left(M(r)_{1\sim2}(M_2y)\right)'\left(M(r)_{1\sim2}(M_2y)\right) = y'M_2M(r)_{1\sim2}M_2y \qquad [8]$$

Son los RHS de eq. $[7]$ $[8]$ igual? Me 'll dejar que el lector.

2voto

Nick Russo Puntos 51

si quería parcela Y en contra de X1 para que yo pudiera visualizar cómo fuertemente los dos estaban relacionados, mientras que también el control por cualquier confusión con X2, me parcela [Y]~[residuos de X1~X2], o [de los residuos de Y~X2] ~ [residuos de X1~X2]?

El segundo. Desea trazar $ e(Y|X_2) \sim e(X_1|X_2)$ para obtener el agregado de la variable para la trama de $X_1$ para el modelo ya que contenga $X_2$. Intuitivamente que piensa de esta manera: la presencia de $X_2$ en el modelo que tenemos es la reducción de la varianza de los residuos (que es relativo a la respuesta). Se desea determinar si la adición de $X_1$ va a reducir esta variación, de manera que usted desea considerar $e(Y|X_2)$, que contiene la varianza restante en los residuos después de tomar el predictor $X_2$ en consideración.

Como usted ha dicho: "parcial" de los efectos de la variable predictora(s) actualmente en el modelo tanto en el predictor(s) que usted está considerando la adición, así como la respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X