Estoy estudiando los apuntes de la conferencia de C. Shalizi https://www.stat.cmu.edu/~cshalizi/ADAfaEPoV/ .
En el tercer capítulo introduce el estimador lineal óptimo de una variable aleatoria $Y$ condicionado a otro (posiblemente vectorial) $X$ : $$f(X)=\beta X,\qquad \beta = \frac{1}{\text {Cov}(X,X)}\text {Cov}(X,Y).$$
Definición del error $Y-f(X)=\epsilon$ afirma que, en general, $\mathbb E(\epsilon|X)\neq 0$ lo cual comprendo.
Sin embargo, en la página 45 demuestra que los estimadores de mínimos cuadrados ordinarios $\hat \beta$ dan estimaciones no sesgadas de $\beta $ (por lo que entiendo, sin ninguna suposición sobre la corrección real del modelo lineal). Aquí está la derivación.
Mi confusión se refiere al paso de la Ec. (2.24) a (2.25), es decir, el segundo $+0$ . ¿No está asumiendo aquí que el condicional La expectativa es $\mathbb E (\epsilon \vert X)=0$ ? Y, en relación con esto, ¿por qué en la Ec. (2.24) tiene el $\mathbb E(|\boldsymbol X = \boldsymbol x)$ para $\mathbb \epsilon$ ¿se ha sustituido por una media de expectativa aparentemente incondicional?
Después de pensarlo un poco, me di cuenta de que probablemente se trata de un error/tipología del autor, que en realidad quería decir que el incondicional expectativa (promediada sobre el conjunto de datos $\boldsymbol X=\boldsymbol x$ ) del $\hat \beta$ es igual a $\beta$ . De hecho, no tiene mucho sentido pensar en poder estimar la línea de regresión completa haciendo mediciones repetidas de $Y$ para unos valores fijos de $X$ ... a menos que la verdad sea un modelo lineal, seguro :-)
Si nadie viene con correcciones o algo que añadir, añadiré lo anterior como respuesta.