Esta es en realidad una pregunta interesante que desafía tu comprensión básica de una regresión.
Primero aclaremos cualquier confusión inicial sobre la notación. Estamos viendo la regresión:
$$y=b_0+b_1x+\hat{u}$$
donde $b_0$ y $b_1$ son los estimadores del verdadero $\beta_0$ y $\beta_1$, y $\hat{u}$ son los residuos de la regresión. Ten en cuenta que la verdadera regresión subyacente y no observada se denota así:
$$y=\beta_0+\beta_1x+u$$
Con la expectativa de que $E[u]=0$ y la varianza $E[u^2]=\sigma^2$. Algunos libros denotan $b$ como $\hat{\beta}$ y nosotros adoptamos esta convención aquí. También hacemos uso de la notación matricial, donde b es el vector 2x1 que contiene los estimadores de $\beta=[\beta_0, \beta_1]'$, es decir, $b=[b_0, b_1]'$. (También para mayor claridad trato a X como fija en los cálculos siguientes.)
Ahora a tu pregunta. Tu fórmula para la covarianza es de hecho correcta, es decir:
$$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 $$
Creo que quieres saber cómo es que tenemos los verdaderos coeficientes no observados $\beta_0, \beta_1$ en esta fórmula? En realidad se cancelan si llevamos un paso más allá expandiendo la fórmula. Para ver esto, nota que la varianza poblacional del estimador se da por:
$$Var(\hat\beta)=\sigma^2(X'X)^{-1}$$
Esta matriz contiene las varianzas en los elementos diagonales y las covarianzas en los elementos fuera de la diagonal.
Para llegar a la fórmula anterior, generalicemos tu afirmación usando notación matricial. Por lo tanto, denotemos varianza con $Var[\cdot]$ y expectativa con $E[\cdot]$.
$$Var[b]=E[b^2]-E[b]E[b']$$
Essencialmente tenemos la fórmula general de varianza, solo que usando notación matricial. La ecuación se resuelve al sustituir en la expresión estándar para el estimador $b=(X'X)^{-1}X'y$. También asumimos $E[b]=\beta$ como un estimador imparcial. Por lo tanto, obtenemos:
$$E[((X'X)^{-1}X'y)^2] - \underset{2 \times 2}{\beta^2}$$
Nota que en el lado derecho tenemos $\beta^2$ - matriz 2x2, es decir $bb'$, pero probablemente puedas adivinar qué sucederá con este término en breve.
Reemplazando $y$ con nuestra expresión para el verdadero proceso de generación de datos subyacente arriba, tenemos:
\begin{align*} E\Big[\Big((X'X)^{-1}X'y\Big)^2\Big] - \beta^2 &= E\Big[\Big((X'X)^{-1}X'(X\beta+u)\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\underbrace{(X'X)^{-1}X'X}_{=I}\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= \beta^2+E\Big[\Big(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \end{align*}
dado que $E[u]=0$. Además, el término cuadrático $\beta^2$ se cancela como se esperaba.
Por lo tanto tenemos:
$$Var[b]=((X'X)^{-1}X')^2E[u^2]$$
Por linealidad de las expectativas. Nota que por suposición $E[u^2]=\sigma^2$ y $((X'X)^{-1}X')^2=(X'X)^{-1}X'X(X'X)'^{-1}=(X'X)^{-1}$ ya que $X'X$ es una matriz simétrica de $K\times K$ y por lo tanto la misma que su transpuesta. Finalmente llegamos a
$$Var[b]=\sigma^2(X'X)^{-1}$$
Nota que nos hemos deshecho de todos los términos de $\beta$. Intuitivamente, la varianza del estimador es independiente del valor del verdadero coeficiente subyacente, ya que este no es una variable aleatoria en sí misma. El resultado es válido para todos los elementos individuales en la matriz de varianza-covarianza como se muestra en el libro, por lo tanto también es válido para los elementos fuera de la diagonal así como para $\beta_0\beta_1$ para cancelarse respectivamente. El único problema fue que aplicaste la fórmula general para la varianza que inicialmente no refleja esta cancelación.
En última instancia, la varianza de los coeficientes se reduce a $\sigma^2(X'X)^{-1}$ e independiente de $\beta$. ¿Pero qué significa esto? (Creo que también preguntaste por una comprensión más general de la matriz de covarianza general)
Mira la fórmula en el libro. Simplemente afirma que la varianza del estimador aumenta cuando el término de error subyacente verdadero es más ruidoso ($\sigma^2$ aumenta), pero disminuye cuando la dispersión de X aumenta — porque tener observaciones más dispersas alrededor del valor verdadero te permite en general construir un estimador más preciso y por lo tanto más cercano al verdadero $\beta$. Por otro lado, los términos de covarianza en la diagonal juegan un papel práctico en la prueba de hipótesis conjuntas como $b_0=b_1=0$. Aparte de eso, son un poco ambiguos, en realidad. Espero que esto aclare todas las preguntas.
3 votos
Pregunta relacionada: stats.stackexchange.com/questions/44838/…
2 votos
¿Cuál es el libro?
0 votos
Neter et al., Modelos de regresión lineal aplicados, 1983, página 216. Puedes encontrar el mismo material en Modelos estadísticos lineales aplicados, 5ta edición, página 207.
0 votos
¿Cómo (6.78a) está buscando la regresión multivariante (múltiple)?