De fondo
Supongamos que tenemos una de mínimos Cuadrados Ordinarios del modelo donde tenemos $k$ coeficientes en nuestro modelo de regresión, $$\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon}$$
donde $\mathbf{\beta}$ $(k\times1)$ vector de coeficientes, $\mathbf{X}$ es el diseño de la matriz definida por
$$\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix}$$ y los errores son IID normal, $$\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 \mathbf{I}\right) \;.$$
Podemos minimizar la suma de cuadrados de los errores de configuración de nuestras estimaciones para $\mathbf{\beta}$ $$\mathbf{\hat{\beta}}= (\mathbf{X^T X})^{-1}\mathbf{X}^T \mathbf{y}\;. $$
Un estimador imparcial de $\sigma^2$ es $$s^2 = \frac{\left\Vert \mathbf{y}-\mathbf{\hat{y}}\right\Vert ^2}{n-p}$$ donde $\mathbf{\hat{y}} \equiv \mathbf{X} \mathbf{\hat{\beta}}$ (ref).
La covarianza de $\mathbf{\hat{\beta}}$ está dado por $$\operatorname{Cov}\left(\mathbf{\hat{\beta}}\right) = \sigma^2 \mathbf{C}$$ donde $\mathbf{C}\equiv(\mathbf{X}^T\mathbf{X})^{-1}$ (ref) .
Pregunta
Cómo puedo probar que para $\hat\beta_i$, $$\frac{\hat{\beta}_i - \beta_i} {s_{\hat{\beta}_i}} \sim t_{n-k}$$ donde $t_{n-k}$ es una distribución t con $(n-k)$ grados de libertad, y el error estándar de $\hat{\beta}_i$ es estimado por $s_{\hat{\beta}_i} = s\sqrt{c_{ii}}$.
Mis intentos
Yo sé que para $n$ variables aleatorias muestras de $x\sim\mathcal{N}\left(\mu, \sigma^2\right)$, usted puede mostrar que $$\frac{\bar{x}-\mu}{s/\sqrt{n}} \sim t_{n-1} $$ por la reescritura de la LHS, como $$\frac{ \left(\frac{\bar x - \mu}{\sigma/\sqrt{n}}\right) } {\sqrt{s^2/\sigma^2}}$$ y darse cuenta de que la numertor es un estándar de la distribución normal, y el denominador es la raíz cuadrada de un Chi-cuadrado de distribución con df=(n-1) y dividido por (n-1) (ref). Y por lo tanto sigue una distribución t con gl=(n-1) (ref).
Yo era incapaz de extender esta prueba a mi pregunta...
Alguna idea? Soy consciente de esta cuestión, pero no explícitamente probarlo, acaban de dar una regla de oro, diciendo: "cada predictor de los costos de un grado de libertad".