En realidad $s$ no necesita sistemáticamente a subestimar $\sigma$; esto podría suceder incluso si eso no fuera cierto.
Como es, $s$ está sesgada por $\sigma$ (el hecho de que $s^2$ es imparcial para $\sigma^2$ significa que $s$ estará sesgada por $\sigma$, debido a la desigualdad de Jensen*, pero ese no es el central, cosa que pasa allí.
* La desigualdad de Jensen
Si $g$ es una función convexa, $g\left(\text{E}[X]\right) \leq \text{E}\left[g(X)\right]$
con la igualdad sólo si $X$ es constante o $g$ es lineal.
Ahora $g(X)=-\sqrt{X}$ es convexa,
por lo $-\sqrt{\text{E}[X]} < \text{E}(-\sqrt{X})$,
es decir,
$\sqrt{\text{E}[X]} > \text{E}(\sqrt{X})\,$, lo que implica la $\sigma>E(s)$ si la variable aleatoria $s$ no es una constante fija.
Entonces, ¿cuál es el principal problema?
Deje $Z=\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}$
Tenga en cuenta que usted está tratando con $t=Z\cdot\frac{\sigma}{s}$.
Que la inversión de $s$ es importante. Por lo que el efecto sobre la varianza no se trata de si $s$ es menor que $\sigma$ en promedio (aunque muy poco), pero si $1/s$ es mayor que $1/\sigma$ en promedio (y esas dos cosas NO son la misma cosa).
Y es más, en mayor medida que su inversa es menor.
Es decir $E(1/X)\neq 1/E(X)$; de hecho, a partir de la desigualdad de Jensen:
$g(X) = 1/x$ es convexa, por lo que si $X$ no es constante,
$1/\left(\text{E}[X]\right) < \text{E}\left[1/X\right]$
Así que considere, por ejemplo, normal muestras de tamaño 10; $s$ es de alrededor de 2.7% menor que $\sigma$ en promedio, pero la $1/s$ es de alrededor de 9.4% mayor que $1/\sigma$ en promedio. Así que incluso si n=10, hicimos nuestra estimación de $\sigma$ 2.7-algo por ciento más grande**, por lo que el $E(\widehat\sigma)=\sigma$, el correspondiente $t=Z\cdot\frac{\sigma}{\widehat\sigma}$ no habría unidad de varianza, todavía sería un poco más grande que 1.
**(en otras $n$ el ajuste sería diferente, por supuesto)
Desde la distribución t es igual que la distribución normal estándar, pero con una mayor varianza (pico menor y más gordo colas)
Si el ajuste por la diferencia en la propagación, el pico es mayor.