El término constante (la intercepción) absorbe la media no nula del término de error, y nos permite asumir de manera segura que el término de error "restante" tiene una media cero. Por eso casi siempre es incorrecto no incluir una intercepción, porque entonces E(u)≠0, a menos por casualidad.
Más formalmente, dado que la primera derivada parcial es:
∂∂β0=−2n∑i=1(yi−ˆβ0−ˆβ1x1)=0
Pero el término en la suma también son los residuos, de modo que:
n∑i=1(yi−ˆβ0−ˆβ1x1)=n∑i=1ˆui=0
EDIT: También hay que tener en cuenta que este hecho se sigue inmediatamente al incluir la intercepción. La imparcialidad, la consistencia, la homocedasticidad, la normalidad o cualquier otra cosa que se esté dispuesto a asumir no juegan ningún papel.