Esta es realmente una buena pregunta. Creo que muchas personas tienen una comprensión incompleta de la suposición de exogeneidad. Sin embargo, esta suposición es crucial, así que voy a elaborar un poco sobre eso.
Consideremos un modelo simple de regresión lineal con $n$ observaciones y $k$ regresores: $$ \boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{u} $$ La mayoría de los libros de texto define la exogeneidad estricta como: $$ E(u_i \vert \boldsymbol{X})=0 \quad, i=1,\dots,n $$ En palabras sencillas, esto significa que ningún regresor contiene información útil para la predicción de $u_i$. Si estás aprendiendo sobre regresión por primera vez, probablemente te preguntas por qué estamos haciendo esta suposición. La respuesta simple es que hace nuestras vidas más fáciles. Una violación de esta suposición complica las cosas. Por ejemplo, la estimación de mínimos cuadrados ordinarios se vuelve inconsistente, etc. Así que sería bueno que esta condición se cumpliera.
Relación entre $E(u_i \vert \boldsymbol{X})=0$ y $Cov(x_{jt},u_i)=0$
En primer lugar, necesitamos derivar algunos resultados que siguen de la suposición de media condicional cero.
El primer resultado importante es que el valor esperado incondicional de los residuos también es igual a cero. $$ E(u_i)=E(E(u_ i\vert \boldsymbol{X}))=E(0)=0 $$ El segundo resultado importante es que los regresores son ortogonales al término de error para todas las observaciones $i=1,\dots,n$. Eso significa: \begin{align} E(x_{jt}u_i)=0 \quad, i,j=1,\dots,n; \, t=1,\dots,k \end{align} Para probar eso, escribe: $$ E(u_i \vert x_{jt})=E(E(u_i \vert \boldsymbol{X}) \vert x_{jt})=0 $$ Por lo tanto: $$ E(x_{jt}u_i)=E(E(x_{jt}u_i\vert x_{jt}))=E(x_{jt} E(u_i\vert x_{jt}))=0 $$ Lo importante a tener en cuenta aquí es que los regresores son ortogonales no solo al término de error de la misma observación, sino también al término de error de las otras observaciones. Esto nos permite escribir: $$ Cov(u_i,x_{jt})=\underbrace{E(x_{jt}u_i)}_{=0}-E(x_{jt})\underbrace{E(u_i)}_{=0}=0 $$ Por lo tanto, podemos derivar de la condición de ortogonalidad que los regresores están contemporáneamente no correlacionados con el término de error.
Sin embargo, como se puede escribir $$ Cov(u_i,x_{jt})=E(x_{jt}E(u_i\vert x_{jt}))-E(x_{jt})E(E(u_i \vert x_{jt})) $$ se ve que el contrario también debe cumplirse, es decir, que $Cov(u_i,x_{jt})=0$ implica una media condicional cero $E(u_ i\vert \boldsymbol{X})=0$. Por lo tanto, ambas condiciones son equivalentes entre sí. Creo que la mayoría de las personas están algo poco familiarizadas con las expectativas condicionales y que esta es la razón por la que se utiliza más a menudo la última definición.
Una definición alternativa
Sin embargo, ten en cuenta que algunos libros de texto tienen una definición ligeramente diferente de exogeneidad. Definen la exogeneidad como: $$ E(x_iu_i)=0 \quad, i =1,\dots,n $$ Esta suposición es más débil que la suposición $E(u_i \vert \boldsymbol{X})=0$, ya que esto implica que para cada función medible $f(.)$: $$ E(f(\boldsymbol{x}_i)u_i)=E(E(f(\boldsymbol{x}_i)u_i\vert \boldsymbol{x}_i))=E(f(\boldsymbol{x}_i)E(u_i \vert \boldsymbol{x}_i))=0 $$ Dato curioso: Para derivar resultados asintóticos, solo necesitas la suposición más débil y la suposición $E(u_i \vert \boldsymbol{X})=0$ suele violarse al tratar con datos de series temporales.