El caso del "sesgo de atenuación" puede presentarse más claramente si examinamos el modelo "probit", pero el resultado se traslada también a la regresión logística.
Bajo los Modelos de Probabilidad Condicional (Logístico (logit), "probit", y modelos de "Probabilidad Lineal") podemos postular un latente modelo de regresión lineal (inobservable):
$$y^* = X\beta + u$$
donde $y^*$ es una variable continua no observable (y $X$ es la matriz regresora). Se supone que el término de error es independiente de los regresores, y seguir una distribución que tenga una densidad simétrica en torno a cero y en nuestro caso, la distribución normal estándar $F_U(u)= \Phi(u)$ .
Suponemos que lo que observamos, es decir, la variable binaria $y$ es una función indicadora de la variable inobservable $y^*$ :
$$ y = 1 \;\;\text{if} \;\;y^*>0,\qquad y = 0 \;\;\text{if}\;\; y^*\le 0$$
Entonces nos preguntamos "¿cuál es la probabilidad de que $y$ tomará el valor $1$ dados los regresores?" (es decir, estamos ante una probabilidad condicional). Es decir
$$P(y =1\mid X ) = P(y^*>0\mid X) = P(X\beta + u>0\mid X) = P(u> - X\beta\mid X) \\= 1- \Phi (-Χ\beta) = \Phi (X\beta) $$
la última igualdad se debe a la propiedad "reflexiva" de la función de distribución acumulativa estándar, que procede de la simetría de la función de densidad en torno a cero. Obsérvese que, aunque hemos supuesto que $u$ es independiente de $X$ acondicionamiento en $X$ para tratar la cantidad $X\beta$ como no aleatorio.
Si suponemos que $X\beta = b_0+b_1X_1 + b_2X_2$ obtenemos el modelo teórico
$$P(y =1\mid X ) = \Phi (b_0+b_1X_1 + b_2X_2) \tag{1}$$
Ahora $X_2$ ser independiente de $X_1$ y excluidos erróneamente de la especificación de la regresión subyacente. Por lo tanto, especificamos
$$y^* = b_0+b_1X_1 + \epsilon$$ Supongamos además que $X_2$ es también una variable aleatoria normal $X_2 \sim N(\mu_2,\sigma_2^2)$ . Pero esto significa que
$$\epsilon = u + b_2X_2 \sim N(b_2\mu_2, 1+b_2^2\sigma_2^2)$$
debido al cierre por defecto de la distribución normal (y al supuesto de independencia). Aplicando la misma lógica que antes, aquí tenemos
$$P(y =1\mid X_1 ) = P(y^*>0\mid X_1) = P(b_0+b_1X_1 + \epsilon>0\mid X_1) = P(\epsilon> - b_0-b_1X_1\mid X_1) $$
Normalización de la $\epsilon$ variable tenemos
$$P(y =1\mid X_1 )= 1- P\left(\frac{\epsilon-b_2\mu_2}{\sqrt {1+b_2^2\sigma_2^2}}\leq - \frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}- \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\mid X_1\right)$$
$$\Rightarrow P(y =1\mid X_1) = \Phi\left(\frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}+ \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\right) \tag{2}$$
y se pueden comparar los modelos $(1)$ y $(2)$ .
La expresión teórica anterior, nos dice donde nuestro estimador de máxima verosimilitud de $b_1$ va a converger, ya que sigue siendo un estimador consistente, en el sentido de que convergerá a la cantidad teórica que realmente existe en el modelo (y, por supuesto, no en el sentido de que vaya a encontrar la "verdad" en cualquier caso):
$$\hat b_1 \xrightarrow{p} \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}} \implies |\hat b_1|< |b_1|$$
que es el resultado del "sesgo hacia cero".
Hemos utilizado el modelo probit, y no el logit (regresión logística), porque sólo en condiciones de normalidad podemos deducir la distribución de $\epsilon$ . La distribución logística no es cerrada bajo adición. Esto significa que si omitimos una variable relevante en la regresión logística, también creamos una mala especificación de la distribución, porque el término de error (que ahora incluye la variable omitida) ya no sigue una distribución logística. Pero esto no cambia el resultado del sesgo (véase la nota a pie de página 6 del artículo enlazado por el OP).