Estrategia
Puede ser esclarecedor ir y venir entre los tres puntos de vista: el estadístico (ver $x_i$ y $y_i$ como datos), una geométrica (en la que las soluciones de mínimos cuadrados son sólo proyecciones en espacios euclidianos adecuados), y una algebraica (manipulando símbolos que representan matrices o transformaciones lineales). De este modo, no sólo se simplifican las ideas, sino que se exponen los supuestos necesarios para que el resultado sea verdadero, que de otro modo podrían quedar enterrados en todas las sumas.
Notación y supuestos
Por lo tanto: dejemos $y = X\beta + u$ donde $y$ es un $n$ -vector, $X$ es un $n$ por $p+1$ "matriz de diseño" cuya primera columna son todos unos, $\beta$ es un $p+1$ -vector de coeficientes verdaderos, y $u$ son variables aleatorias iid con expectativa cero y varianza común $\sigma^2$ . (Sigamos, como en la pregunta, iniciando los índices del vector de coeficientes con $0$ , escribiendo ${\beta} = ({\beta_0}, {\beta_1}, \ldots, {\beta_p})$ .) Esto generaliza la pregunta, para la cual $X$ tiene sólo dos columnas: su segunda columna es el vector $(x_1, x_2, \ldots, x_n)'$ .
Propiedades básicas de la regresión OLS
La estimación de la regresión $\hat{\beta}$ es un $p+1$ -vector que se obtiene aplicando una transformación lineal $\mathbb{P}$ a $y$ . Como solución a la regresión, proyecta los valores exactos $X\beta$ en los valores reales $\beta$ : $$\mathbb{P}\left(X\beta\right) = \beta.$$ Por último -y este es el quid de la cuestión que nos ocupa- es evidente estadísticamente (pensando en estos valores como datos )-que la proyección de $y = (1, 1, \ldots, 1)'$ tiene la solución única $\hat{\beta} = (1, 0, 0, \ldots, 0)$ : $$\mathbb{P}1_n' = (1, 0, 0, \ldots, 0),$$ porque cuando todas las respuestas $y_i$ son iguales a $1$ el intercepto $\beta_0 = 1$ y todos los demás coeficientes deben desaparecer. Eso es todo lo que necesitamos saber. (Tener una fórmula para $\mathbb{P}$ en términos de $X$ no tiene importancia (y distrae).
Preliminares sencillos
Comienza con una manipulación algebraica sencilla de la expresión original:
$$\eqalign{ (\hat{\beta}-\beta)\bar{u} &= (\mathbb{P}y-\beta)\bar{u} \\ &= (\mathbb{P}(X\beta+u)-\beta)\bar{u} \\ &= \mathbb{P}(X\beta+u)\bar{u} - \beta\bar{u} \\ &= (\mathbb{P}X\beta)\bar{u} + \mathbb{P}u\bar{u} - \beta\bar{u} \\ &= \beta\bar{u} + \mathbb{P}u\bar{u} - \beta\bar{u}\\ &= \mathbb{P}(u\bar{u}). } $$
Esta secuencia de pasos casi sin sentido -cada uno lleva naturalmente al siguiente mediante simples reglas algebraicas- está motivada por el deseo de (a) expresar la variación aleatoria puramente en términos de $u$ de donde se deriva todo, y (b) introducir $\mathbb{P}$ para poder explotar sus propiedades.
Cálculo de la expectativa
Tomar la expectativa ya no se puede posponer, sino porque $\mathbb{P}$ es un lineal se aplicará a la expectativa de $u\bar{u}$ . Podríamos emplear algunas operaciones matriciales formales para calcular esta expectativa, pero hay una forma más sencilla. Recordando que el $u_i$ son iid, es inmediato que todos los coeficientes en $\mathbb{E}[u\bar{u}]$ debe ser el mismo. Como son iguales, cada una de ellas es igual a su media. Esto se puede obtener promediando los coeficientes de $u$ multiplicando por $\bar{u}$ y tomando la expectativa. Pero eso es sólo una receta para encontrar $$\mathbb{E}[\bar{u}\bar{u}] = \text{Var}[\bar{u}] = \sigma^2/n.$$ De ello se desprende que $\mathbb{E}[u\bar{u}]$ es un vector de $n$ valores, todo lo cual es igual a $\sigma^2/n$ . Utilizando nuestra taquigrafía vectorial anterior podemos escribir $$\mathbb{E}[(\hat{\beta}-\beta)\bar{u} ] = \mathbb{E}[\mathbb{P}(u\bar{u})] = \mathbb{PE}[u\bar{u}]=\mathbb{P}1_n'\sigma^2/n=(\sigma^2/n, 0, 0, \ldots, 0).$$
Conclusión:
Esto dice que los coeficientes estimados $\hat{\beta_i}$ y el error medio $\hat{u}$ no están correlacionados para $i=1, 2, \ldots, p$ , pero no para $\hat{\beta_0}$ (la intercepción).
Es instructivo revisar los pasos y considerar qué supuestos eran esenciales y qué elementos del aparato de regresión simplemente no aparecían en la demostración. Deberíamos esperar cualquier La prueba, no importa lo elemental o sofisticada que sea, necesitará utilizar las mismas (o más fuertes) suposiciones y necesitará, de una forma u otra, incluir cálculos de $\mathbb{P}1_n'$ y $\mathbb{E}[u\bar{u}]$ .