Puede que desee echar un vistazo a algunos de los recursos en el sesgo de variable omitida. Su pregunta es el caso de la que comúnmente se utiliza en las ilustraciones de este fenómeno. Voy a añadir la derivación de las correspondientes ecuaciones de aquí, pero usted puede conseguir más información para más amplia de los casos, si usted lee sobre el tema general de sesgo de variable omitida en la regresión.
Vector de la forma de sesgo de variable omitida: Para encontrar la tendencia, escribir el modelo en formato vectorial como:
$$\boldsymbol{Y} = \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{X}_2 \boldsymbol{\beta}_2 + \boldsymbol{\varepsilon},$$
donde $\boldsymbol{X}$ está compuesto de una columna de unos (por la intercepción) y una columna de valores de $x_1$, e $\boldsymbol{X}_2$ está compuesto de una columna de valores de $x_2$. Ahora, toma la estimación OLS para el primer parámetro (cuando se omite el segundo a partir del modelo), y el sustituto de la verdadera forma de la $\boldsymbol{Y}$ (que incluye la variable omitida). Esto le da la ecuación:
$$\begin{equation} \begin{aligned}
\hat{\boldsymbol{\beta}}
&= (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} \boldsymbol{X}^\text{T} \boldsymbol{Y} \\[6pt]
&= (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} \boldsymbol{X}^\text{T} (\boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{X}_2 \boldsymbol{\beta}_2 + \boldsymbol{\varepsilon}) \\[6pt]
&= \boldsymbol{\beta} + (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} (\boldsymbol{X}^\text{T} \boldsymbol{X}_2) \boldsymbol{\beta}_2 + (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} \boldsymbol{X}^\text{T} \boldsymbol{\varepsilon}. \\[6pt]
\end{aligned} \end{equation}$$
Por lo tanto, el sesgo del estimador es:
$$\begin{equation} \begin{aligned}
\text{Bias}(\hat{\boldsymbol{\beta}} | \boldsymbol{X}, \boldsymbol{X}_2)
&= \mathbb{E}(\hat{\boldsymbol{\beta}} | \boldsymbol{X}, \boldsymbol{X}_2) - \boldsymbol{\beta} \\[6pt]
&= (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} (\boldsymbol{X}^\text{T} \boldsymbol{X}_2) \boldsymbol{\beta}_2 + (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} \boldsymbol{X}^\text{T} \mathbb{E}(\boldsymbol{\varepsilon} | \boldsymbol{X}, \boldsymbol{X}_2) \\[6pt]
&= (\boldsymbol{X}^\text{T} \boldsymbol{X})^{-1} (\boldsymbol{X}^\text{T} \boldsymbol{X}_2) \boldsymbol{\beta}_2. \\[6pt]
\end{aligned} \end{equation}$$
Escalar de la forma: podemos obtener las ecuaciones escalares para el sesgo de cada uno de los escalares estimador sustituyendo el diseño de matrices en esta ecuación y simplificando para ecuaciones escalares. Trataremos de simplificar este cálculo para el uso de los términos estándar de la muestra de medios, varianzas, covarianzas, etc., y entonces vale la pena señalar que:
$$\begin{equation} \begin{aligned}
s_1^2 &= \frac{\sum x_{1,i}^2}{n} - \bar{x}_1^2 & & & (\sum x_{1,i}^2) &= n (s_1^2 + \bar{x}_1^2), \\[10pt]
s_2^2 &= \frac{\sum x_{2,i}^2}{n} - \bar{x}_2^2 & & & (\sum x_{2,i}^2) &= n (s_2^2 + \bar{x}_2^2), \\[10pt]
r_{1,2} &= \frac{\sum x_{1,i} x_{2,i}}{n} - \bar{x}_1 \bar{x}_2 & & & (\sum x_{1,i} x_{2,i}) &= n (r_{1,2} + \bar{x}_1 \bar{x}_2). \\[10pt]
\end{aligned} \end{equation}$$
Sustituyendo el diseño de matrices y la simplificación algebraica, se obtiene:
$$\begin{equation} \begin{aligned}
\text{Bias}(\hat{\boldsymbol{\beta}} | \boldsymbol{X}, \boldsymbol{X}_2)
&= \begin{bmatrix} n & \sum x_{1,i} \\ \sum x_{1,i} & \sum x_{1,i}^2 \end{bmatrix}^{-1} \begin{bmatrix} \sum x_{2,i} \\ \sum x_{1,i} x_{2,i} \end{bmatrix} \beta_2 \\[6pt]
&= \frac{1}{n \sum x_{1,i}^2 - (\sum x_{1,i})^2} \begin{bmatrix} \sum x_{1,i}^2 & -\sum x_{1,i} \\ -\sum x_{1,i} & n \end{bmatrix} \begin{bmatrix} \sum x_{2,i} \\ \sum x_{1,i} x_{2,i} \end{bmatrix} \beta_2 \\[6pt]
&= \frac{1}{n \sum x_{1,i}^2 - (\sum x_{1,i})^2} \begin{bmatrix} (\sum x_{1,i}^2) (\sum x_{2,i}) - (\sum x_{1,i})(\sum x_{1,i} x_{2,i}) \\ n (\sum x_{1,i} x_{2,i}) - (\sum x_{1,i}) (\sum x_{2,i}) \end{bmatrix} \beta_2 \\[6pt]
&= \frac{1}{\sum x_{1,i}^2 - n \bar{x}_1^2} \begin{bmatrix} (\sum x_{1,i}^2) \bar{x}_2 - \bar{x}_1 (\sum x_{1,i} x_{2,i}) \\ \sum x_{1,i} x_{2,i} - n \bar{x}_1 \bar{x}_2 \end{bmatrix} \beta_2 \\[6pt]
&= \frac{1}{n s_1^2} \begin{bmatrix} (n s_1^2 + \bar{x}_1^2) \bar{x}_2 - \bar{x}_1 (n r_{1,2} + \bar{x}_1 \bar{x}_2) \\ n r_{1,2} \end{bmatrix} \beta_2 \\[6pt]
&= \frac{1}{s_1^2} \begin{bmatrix} s_1^2 \bar{x}_2 - \bar{x}_1 r_{1,2} \\ r_{1,2} \end{bmatrix} \beta_2 \\[6pt]
y= \begin{bmatrix} \bar{x}_2 - \bar{x}_1 \cdot \rho_{1,2} \cdot s_2/s_1 \\ \rho_{1,2} \cdot s_2/s_1 \end{bmatrix} \beta_2. \\[6pt]
\end{aligned} \end{equation}$$
Por lo tanto tenemos:
$$\begin{equation} \begin{aligned}
\text{Bias}(\hat{\beta}_0 | \boldsymbol{X}, \boldsymbol{X}_2)
&= \Big( \bar{x}_2 - \bar{x}_1 \cdot \rho_{1,2} \cdot \frac{s_2}{s_1} \Big) \cdot \beta_2, \\[6pt]
\text{Bias}(\hat{\beta}_1 | \boldsymbol{X}, \boldsymbol{X}_2)
&= \rho_{1,2} \cdot \frac{s_2}{s_1} \cdot \beta_2. \\[6pt]
\end{aligned} \end{equation}$$
Como se puede ver a partir de estas ecuaciones, el sesgo en la estimación de la pendiente parámetro $\beta_1$ proviene de la correlación entre los incluidos y omite variables explicativas, y el sesgo en la estimación de la intersección parámetro $\beta_0$ proviene de la correlación entre estas variables, además de la media muestral de la variable omitida. También se dará cuenta de que en el caso especial donde los incluidos y omite variables explicativas no están correlacionados, todos los prejuicios se absorbe en el término de intersección.