69 votos

Cómo derivar la matriz de varianza-covarianza de coeficientes en regresión lineal

Estoy leyendo un libro sobre regresión lineal y tengo dificultades para entender la matriz de varianza-covarianza de $\mathbf{b}$:

enter image description here

Los elementos diagonales son lo suficientemente fáciles, pero los que no están en la diagonal son un poco más difíciles, lo que me desconcierta es que $$ \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 $$

pero aquí no hay rastro de $\beta_0$ y $\beta_1.

3 votos

2 votos

¿Cuál es el libro?

0 votos

Neter et al., Modelos de regresión lineal aplicados, 1983, página 216. Puedes encontrar el mismo material en Modelos estadísticos lineales aplicados, 5ta edición, página 207.

90voto

Majte Puntos 847

Esta es en realidad una pregunta interesante que desafía tu comprensión básica de una regresión.

Primero aclaremos cualquier confusión inicial sobre la notación. Estamos viendo la regresión:

$$y=b_0+b_1x+\hat{u}$$

donde $b_0$ y $b_1$ son los estimadores del verdadero $\beta_0$ y $\beta_1$, y $\hat{u}$ son los residuos de la regresión. Ten en cuenta que la verdadera regresión subyacente y no observada se denota así:

$$y=\beta_0+\beta_1x+u$$

Con la expectativa de que $E[u]=0$ y la varianza $E[u^2]=\sigma^2$. Algunos libros denotan $b$ como $\hat{\beta}$ y nosotros adoptamos esta convención aquí. También hacemos uso de la notación matricial, donde b es el vector 2x1 que contiene los estimadores de $\beta=[\beta_0, \beta_1]'$, es decir, $b=[b_0, b_1]'$. (También para mayor claridad trato a X como fija en los cálculos siguientes.)

Ahora a tu pregunta. Tu fórmula para la covarianza es de hecho correcta, es decir:

$$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 $$

Creo que quieres saber cómo es que tenemos los verdaderos coeficientes no observados $\beta_0, \beta_1$ en esta fórmula? En realidad se cancelan si llevamos un paso más allá expandiendo la fórmula. Para ver esto, nota que la varianza poblacional del estimador se da por:

$$Var(\hat\beta)=\sigma^2(X'X)^{-1}$$

Esta matriz contiene las varianzas en los elementos diagonales y las covarianzas en los elementos fuera de la diagonal.

Para llegar a la fórmula anterior, generalicemos tu afirmación usando notación matricial. Por lo tanto, denotemos varianza con $Var[\cdot]$ y expectativa con $E[\cdot]$.

$$Var[b]=E[b^2]-E[b]E[b']$$

Essencialmente tenemos la fórmula general de varianza, solo que usando notación matricial. La ecuación se resuelve al sustituir en la expresión estándar para el estimador $b=(X'X)^{-1}X'y$. También asumimos $E[b]=\beta$ como un estimador imparcial. Por lo tanto, obtenemos:

$$E[((X'X)^{-1}X'y)^2] - \underset{2 \times 2}{\beta^2}$$

Nota que en el lado derecho tenemos $\beta^2$ - matriz 2x2, es decir $bb'$, pero probablemente puedas adivinar qué sucederá con este término en breve.

Reemplazando $y$ con nuestra expresión para el verdadero proceso de generación de datos subyacente arriba, tenemos:

\begin{align*} E\Big[\Big((X'X)^{-1}X'y\Big)^2\Big] - \beta^2 &= E\Big[\Big((X'X)^{-1}X'(X\beta+u)\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\underbrace{(X'X)^{-1}X'X}_{=I}\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= \beta^2+E\Big[\Big(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \end{align*}

dado que $E[u]=0$. Además, el término cuadrático $\beta^2$ se cancela como se esperaba.

Por lo tanto tenemos:

$$Var[b]=((X'X)^{-1}X')^2E[u^2]$$

Por linealidad de las expectativas. Nota que por suposición $E[u^2]=\sigma^2$ y $((X'X)^{-1}X')^2=(X'X)^{-1}X'X(X'X)'^{-1}=(X'X)^{-1}$ ya que $X'X$ es una matriz simétrica de $K\times K$ y por lo tanto la misma que su transpuesta. Finalmente llegamos a

$$Var[b]=\sigma^2(X'X)^{-1}$$

Nota que nos hemos deshecho de todos los términos de $\beta$. Intuitivamente, la varianza del estimador es independiente del valor del verdadero coeficiente subyacente, ya que este no es una variable aleatoria en sí misma. El resultado es válido para todos los elementos individuales en la matriz de varianza-covarianza como se muestra en el libro, por lo tanto también es válido para los elementos fuera de la diagonal así como para $\beta_0\beta_1$ para cancelarse respectivamente. El único problema fue que aplicaste la fórmula general para la varianza que inicialmente no refleja esta cancelación.

En última instancia, la varianza de los coeficientes se reduce a $\sigma^2(X'X)^{-1}$ e independiente de $\beta$. ¿Pero qué significa esto? (Creo que también preguntaste por una comprensión más general de la matriz de covarianza general)

Mira la fórmula en el libro. Simplemente afirma que la varianza del estimador aumenta cuando el término de error subyacente verdadero es más ruidoso ($\sigma^2$ aumenta), pero disminuye cuando la dispersión de X aumenta — porque tener observaciones más dispersas alrededor del valor verdadero te permite en general construir un estimador más preciso y por lo tanto más cercano al verdadero $\beta$. Por otro lado, los términos de covarianza en la diagonal juegan un papel práctico en la prueba de hipótesis conjuntas como $b_0=b_1=0$. Aparte de eso, son un poco ambiguos, en realidad. Espero que esto aclare todas las preguntas.

0 votos

Y cuando mantenga la propagación constante y disminuya las x, el error estándar de la intercepción se vuelve más pequeño, lo cual tiene sentido.

0 votos

No sigo la expansión del cuadrado. ¿Por qué no se simplifica a $((X'X)^{-1}X')^2 = ((X'X)^{-1}X')((X'X)^{-1}X') = X^{-2}$?

0 votos

Todas las $^2$ aquí deberían ser transpuestas.

6voto

Marc-Andre R. Puntos 789

En tu caso tenemos

$$X'X=\begin{bmatrix}n & \sum X_i\\\sum X_i & \sum X_i^2\end{bmatrix}$$

Invierte esta matriz y obtendrás el resultado deseado.

0 votos

¿Por qué funciona esto? ¿Puedes decir más?

5voto

Vincent Tang Puntos 101

Solución de máxima verosimilitud:

$ \mathcal{L}(\beta_0,\beta_1|\sigma,\epsilon_1,\ldots,\epsilon_n) = \prod\limits_{i=1}^{n}\frac{1}{\sigma\sqrt{2\pi}} \exp\!\left[-\frac{\epsilon_i^2}{2\sigma^2}\right] \mbox{, donde } \epsilon_i = \beta_0 + \beta_1 x_i - y_i$

$ \mathcal{LL}(\beta_0,\beta_1|\sigma,x_1,y_1,\ldots,x_n,y_n) = \sum\limits_{i=1}^{n}\ln\!\left[\frac{1}{\sigma\sqrt{2\pi}}\right] - \frac{(\beta_0 + \beta_1 x_i - y_i)^2}{2\sigma^2}$

Estimación de la matriz de covarianza de los coeficientes de regresión a partir de la información de Fisher:

$ \left[ \begin{array}{cc} s[\beta_0]^2 & s[\beta_0,\beta_1] \\ s[\beta_0,\beta_1] & s[\beta_1]^2 \\ \end{array} \right] = -\mathcal{H}^{-1} = -\left[ \begin{array}{cc} \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_0^2}} & \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_0}\partial{\beta_1}} \\ \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_0}\partial{\beta_1}} & \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_1^2}} \end{array} \right]^{-1} \\ = -\frac{1}{\sigma^2} \left[ \begin{array}{cc} n & \sum_{i=1}^{n}x_i \\ \sum_{i=1}^{n}x_i & \sum_{i=1}^{n}x_i^2 \end{array} \right]^{-1} = \left[ \begin{array}{cc} \frac{\sigma^2\sum_{i=1}^{n}x_i^2}{n\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} & -\frac{\sigma^2\bar{x}}{\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} \\ -\frac{\sigma^2\bar{x}}{\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} & \frac{\sigma^2}{\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} \end{array} \right]$

2voto

Gyongyeee Puntos 38

Parece que $\beta_0 \beta_1$ son los valores predichos (valores esperados). Hacen el cambio entre $E(b_0)=\beta_0$ y $E(b_1)=\beta_1$.

0 votos

$\beta_0$ y $\beta_1$ son generalmente desconocidos, ¿a qué pueden cambiar?

0 votos

Creo que entiendo la confusión, y creo que tal vez deberían haber escrito $\beta_0^*$ en lugar de $\beta_0$. Aquí hay otro post que pasa por el cálculo: enlace

4 votos

@qed: para obtener estimaciones de muestra de las cantidades desconocidas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X