Cómo derivar la matriz de varianza-covarianza de coeficientes en regresión lineal

Question

Cómo derivar la matriz de varianza-covarianza de coeficientes en regresión lineal

Preguntado el 23 de Agosto, 2013: Cuando se hizo la pregunta
18128 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estoy leyendo un libro sobre regresión lineal y tengo dificultades para entender la matriz de varianza-covarianza de $\mathbf{b}$ :

enter image description here

Los elementos diagonales son lo suficientemente fáciles, pero los que no están en la diagonal son un poco más difíciles, lo que me desconcierta es que $\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

pero aquí no hay rastro de $\beta_0$ y $\beta_1.

Preguntado el 23 de Agosto, 2013 por Manos Dilaverakis

3 votos

Pregunta relacionada: stats.stackexchange.com/questions/44838/…

Comentado el 21 de Noviembre, 2013 por ocram

2 votos

¿Cuál es el libro?

Comentado el 30 de Mayo, 2015 por Benny

0 votos

Neter et al., Modelos de regresión lineal aplicados, 1983, página 216. Puedes encontrar el mismo material en Modelos estadísticos lineales aplicados, 5ta edición, página 207.

Comentado el 19 de Noviembre, 2019 por cesarlinux

Mostrar 1 comentarios más

Answer 1

4 Respuestas

Answer 2

91voto

Majte Puntos 847

Esta es en realidad una pregunta interesante que desafía tu comprensión básica de una regresión.

Primero aclaremos cualquier confusión inicial sobre la notación. Estamos viendo la regresión:

$y=b_0+b_1x+\hat{u}$

donde $b_0$ y $b_1$ son los estimadores del verdadero $\beta_0$ y $\beta_1$ , y $\hat{u}$ son los residuos de la regresión. Ten en cuenta que la verdadera regresión subyacente y no observada se denota así:

$y=\beta_0+\beta_1x+u$

Con la expectativa de que $E[u]=0$ y la varianza $E[u^2]=\sigma^2$ . Algunos libros denotan $b$ como $\hat{\beta}$ y nosotros adoptamos esta convención aquí. También hacemos uso de la notación matricial, donde b es el vector 2x1 que contiene los estimadores de $\beta=[\beta_0, \beta_1]'$ , es decir, $b=[b_0, b_1]'$ . (También para mayor claridad trato a X como fija en los cálculos siguientes.)

Ahora a tu pregunta. Tu fórmula para la covarianza es de hecho correcta, es decir:

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

Creo que quieres saber cómo es que tenemos los verdaderos coeficientes no observados $\beta_0, \beta_1$ en esta fórmula? En realidad se cancelan si llevamos un paso más allá expandiendo la fórmula. Para ver esto, nota que la varianza poblacional del estimador se da por:

$Var(\hat\beta)=\sigma^2(X'X)^{-1}$

Esta matriz contiene las varianzas en los elementos diagonales y las covarianzas en los elementos fuera de la diagonal.

Para llegar a la fórmula anterior, generalicemos tu afirmación usando notación matricial. Por lo tanto, denotemos varianza con $Var[\cdot]$ y expectativa con $E[\cdot]$ .

$Var[b]=E[b^2]-E[b]E[b']$

Essencialmente tenemos la fórmula general de varianza, solo que usando notación matricial. La ecuación se resuelve al sustituir en la expresión estándar para el estimador $b=(X'X)^{-1}X'y$ . También asumimos $E[b]=\beta$ como un estimador imparcial. Por lo tanto, obtenemos:

$E[((X'X)^{-1}X'y)^2] - \underset{2 \times 2}{\beta^2}$

Nota que en el lado derecho tenemos $\beta^2$ - matriz 2x2, es decir $bb'$ , pero probablemente puedas adivinar qué sucederá con este término en breve.

Reemplazando $y$ con nuestra expresión para el verdadero proceso de generación de datos subyacente arriba, tenemos:

$\begin{align*} E\Big[\Big((X'X)^{-1}X'y\Big)^2\Big] - \beta^2 &= E\Big[\Big((X'X)^{-1}X'(X\beta+u)\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\underbrace{(X'X)^{-1}X'X}_{=I}\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= \beta^2+E\Big[\Big(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \end{align*}$

dado que $E[u]=0$ . Además, el término cuadrático $\beta^2$ se cancela como se esperaba.

Por lo tanto tenemos:

$Var[b]=((X'X)^{-1}X')^2E[u^2]$

Por linealidad de las expectativas. Nota que por suposición $E[u^2]=\sigma^2$ y $((X'X)^{-1}X')^2=(X'X)^{-1}X'X(X'X)'^{-1}=(X'X)^{-1}$ ya que $X'X$ es una matriz simétrica de $K\times K$ y por lo tanto la misma que su transpuesta. Finalmente llegamos a

$Var[b]=\sigma^2(X'X)^{-1}$

Nota que nos hemos deshecho de todos los términos de $\beta$ . Intuitivamente, la varianza del estimador es independiente del valor del verdadero coeficiente subyacente, ya que este no es una variable aleatoria en sí misma. El resultado es válido para todos los elementos individuales en la matriz de varianza-covarianza como se muestra en el libro, por lo tanto también es válido para los elementos fuera de la diagonal así como para $\beta_0\beta_1$ para cancelarse respectivamente. El único problema fue que aplicaste la fórmula general para la varianza que inicialmente no refleja esta cancelación.

En última instancia, la varianza de los coeficientes se reduce a $\sigma^2(X'X)^{-1}$ e independiente de $\beta$ . ¿Pero qué significa esto? (Creo que también preguntaste por una comprensión más general de la matriz de covarianza general)

Mira la fórmula en el libro. Simplemente afirma que la varianza del estimador aumenta cuando el término de error subyacente verdadero es más ruidoso ( $\sigma^2$ aumenta), pero disminuye cuando la dispersión de X aumenta — porque tener observaciones más dispersas alrededor del valor verdadero te permite en general construir un estimador más preciso y por lo tanto más cercano al verdadero $\beta$ . Por otro lado, los términos de covarianza en la diagonal juegan un papel práctico en la prueba de hipótesis conjuntas como $b_0=b_1=0$ . Aparte de eso, son un poco ambiguos, en realidad. Espero que esto aclare todas las preguntas.

Respondido el 10 de Febrero, 2014 por Majte (847 Puntos )

0 votos

Y cuando mantenga la propagación constante y disminuya las x, el error estándar de la intercepción se vuelve más pequeño, lo cual tiene sentido.

Comentado el 28 de Febrero, 2014 por romandas

0 votos

No sigo la expansión del cuadrado. ¿Por qué no se simplifica a $((X'X)^{-1}X')^2 = ((X'X)^{-1}X')((X'X)^{-1}X') = X^{-2}$ ?

Comentado el 29 de Septiembre, 2018 por blip

0 votos

Todas las $^2$ aquí deberían ser transpuestas.

Comentado el 9 de Julio, 2020 por Iamanon

Mostrar 1 comentarios más

Answer 3

6voto

Marc-Andre R. Puntos 789

En tu caso tenemos

$X'X=\begin{bmatrix}n & \sum X_i\\\sum X_i & \sum X_i^2\end{bmatrix}$

Invierte esta matriz y obtendrás el resultado deseado.

Respondido el 21 de Noviembre, 2013 por Marc-Andre R. (789 Puntos )

0 votos

¿Por qué funciona esto? ¿Puedes decir más?

Comentado el 13 de Octubre, 2023 por Tor

Answer 4

5voto

Vincent Tang Puntos 101

Solución de máxima verosimilitud:

$\mathcal{L}(\beta_0,\beta_1|\sigma,\epsilon_1,\ldots,\epsilon_n) = \prod\limits_{i=1}^{n}\frac{1}{\sigma\sqrt{2\pi}} \exp\!\left[-\frac{\epsilon_i^2}{2\sigma^2}\right] \mbox{, donde } \epsilon_i = \beta_0 + \beta_1 x_i - y_i$

$\mathcal{LL}(\beta_0,\beta_1|\sigma,x_1,y_1,\ldots,x_n,y_n) = \sum\limits_{i=1}^{n}\ln\!\left[\frac{1}{\sigma\sqrt{2\pi}}\right] - \frac{(\beta_0 + \beta_1 x_i - y_i)^2}{2\sigma^2}$

Estimación de la matriz de covarianza de los coeficientes de regresión a partir de la información de Fisher:

$\left[ \begin{array}{cc} s[\beta_0]^2 & s[\beta_0,\beta_1] \\ s[\beta_0,\beta_1] & s[\beta_1]^2 \\ \end{array} \right] = -\mathcal{H}^{-1} = -\left[ \begin{array}{cc} \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_0^2}} & \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_0}\partial{\beta_1}} \\ \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_0}\partial{\beta_1}} & \frac{\partial^2{\mathcal{LL}}}{\partial{\beta_1^2}} \end{array} \right]^{-1} \\ = -\frac{1}{\sigma^2} \left[ \begin{array}{cc} n & \sum_{i=1}^{n}x_i \\ \sum_{i=1}^{n}x_i & \sum_{i=1}^{n}x_i^2 \end{array} \right]^{-1} = \left[ \begin{array}{cc} \frac{\sigma^2\sum_{i=1}^{n}x_i^2}{n\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} & -\frac{\sigma^2\bar{x}}{\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} \\ -\frac{\sigma^2\bar{x}}{\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} & \frac{\sigma^2}{\sum_{i=1}^{n}(x_i^2-\bar{x}^2)} \end{array} \right]$

Respondido el 2 de Octubre, 2020 por Vincent Tang (101 Puntos )

Answer 5

2voto

Gyongyeee Puntos 38

Parece que $\beta_0 \beta_1$ son los valores predichos (valores esperados). Hacen el cambio entre $E(b_0)=\beta_0$ y $E(b_1)=\beta_1$ .

Respondido el 23 de Agosto, 2013 por Gyongyeee (38 Puntos )

0 votos

$\beta_0$ y $\beta_1$ son generalmente desconocidos, ¿a qué pueden cambiar?

Comentado el 23 de Agosto, 2013 por Manos Dilaverakis

0 votos

Creo que entiendo la confusión, y creo que tal vez deberían haber escrito $\beta_0^*$ en lugar de $\beta_0$ . Aquí hay otro post que pasa por el cálculo: enlace

Comentado el 23 de Agosto, 2013 por Gyongyeee

4 votos

@qed: para obtener estimaciones de muestra de las cantidades desconocidas.

Comentado el 23 de Agosto, 2013 por AdamSane

Cómo derivar la matriz de varianza-covarianza de coeficientes en regresión lineal

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Cómo derivar la matriz de varianza-covarianza de coeficientes en regresión lineal

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: