Probablemente esté pensando en las dos muestras $t$ porque a menudo es el primer lugar en el que el $t$ la distribución se produce. Pero realmente todo un $t$ significa que la distribución de referencia para la estadística de la prueba es una $t$ distribución. Si $Z \sim \mathcal N(0,1)$ y $S^2 \sim \chi^2_d$ avec $Z$ y $S^2$ independiente, entonces $$ \frac{Z}{\sqrt{S^2 / d}} \sim t_d $$ por definición. Escribo esto para enfatizar que la $t$ es sólo un nombre que se le dio a la distribución de esta proporción porque surge mucho, y cualquier cosa de esta forma tendrá un $t$ distribución. Para la prueba t de dos muestras, esta relación aparece porque bajo la nula la diferencia de medias es una gaussiana de media cero y la estimación de la varianza para gaussianas independientes es una $\chi^2$ (la independencia puede demostrarse mediante Teorema de Basu que utiliza el hecho de que la estimación de la varianza estándar en una muestra gaussiana es accesoria a la media de la población, mientras que la media de la muestra es completa y suficiente para esa misma cantidad).
Con la regresión lineal obtenemos básicamente lo mismo. En forma de vector, $\hat \beta \sim \mathcal N(\beta, \sigma^2 (X^T X)^{-1})$ . Sea $S^2_j = (X^T X)^{-1}_{jj}$ y asumir los predictores $X$ no son aleatorios. Si supiéramos $\sigma^2$ tendríamos $$ \frac{\hat \beta_j - 0}{\sigma S_j} \sim \mathcal N(0, 1) $$ bajo la nula $H_0 : \beta_j = 0$ por lo que realmente tendríamos una prueba Z. Pero una vez que estimamos $\sigma^2$ terminamos con un $\chi^2$ variable aleatoria que, bajo nuestros supuestos de normalidad, resulta ser independiente de nuestro estadístico $\hat \beta_j$ y entonces obtenemos un $t$ distribución.
Aquí están los detalles de eso: suponga $y \sim \mathcal N(X\beta, \sigma^2 I)$ . Dejar $H = X(X^TX)^{-1}X^T$ sea la matriz del sombrero tenemos $$ \|e\|^2 = \|(I-H)y\|^2 = y^T(I-H)y. $$ $H$ es idempotente por lo que tenemos el bonito resultado de que $$ y^T(I-H)y / \sigma^2 \sim \mathcal \chi_{n-p}^2(\delta) $$ con el parámetro de no centralidad $\delta = \beta^TX^T(I-H)X\beta = \beta^T(X^TX - X^T X)\beta = 0$ Así que, en realidad, se trata de un centro $\chi^2$ avec $n-p$ grados de libertad (es un caso especial de Teorema de Cochran ). Estoy usando $p$ para denotar el número de columnas de $X$ por lo que si una columna de $X$ da la intercepción entonces tendríamos $p-1$ predictores no interceptados. Algunos autores utilizan $p$ para ser el número de predictores no interceptados, por lo que a veces se puede ver algo como $n-p-1$ en los grados de libertad allí, pero es todo lo mismo.
El resultado de esto es que $E(e^Te / \sigma^2) = n-p$ Así que $\hat \sigma^2 := \frac{1}{n-p} e^T e$ funciona muy bien como estimador de $\sigma^2$ .
Esto significa que $$ \frac{\hat \beta_j}{\hat \sigma S_j}= \frac{\hat \beta_j}{S_j\sqrt{e^Te / (n-p)}} = \frac{\hat \beta_j}{\sigma S_j\sqrt{\frac{e^Te}{\sigma^2(n-p)}}} $$ es la relación entre una gaussiana estándar y un chi cuadrado dividida por sus grados de libertad. Para terminar, necesitamos demostrar la independencia y podemos utilizar el siguiente resultado:
Resultado: para $Z \sim \mathcal N_k(\mu, \Sigma)$ y matrices $A$ y $B$ en $\mathbb R^{l\times k}$ y $\mathbb R^{m\times k}$ respectivamente, $AZ$ y $BZ$ son independientes si y sólo si $A\Sigma B^T = 0$ (este es el ejercicio 58(b) del capítulo 1 de Estadísticas matemáticas de Jun Shao ).
Tenemos $\hat \beta = (X^TX)^{-1}X^T y$ y $e = (I-H)y$ donde $y \sim \mathcal N(X\beta, \sigma^2 I)$ . Esto significa que $$ (X^TX)^{-1}X^T \cdot \sigma^2 I \cdot (I-H)^T = \sigma^2 \left((X^TX)^{-1}X^T - (X^TX)^{-1}X^TX(X^TX)^{-1}X^T\right) = 0 $$ así que $\hat \beta \perp e$ y por lo tanto $\hat \beta \perp e^T e$ .
El resultado es que ahora sabemos $$ \frac{\hat \beta_j}{\hat \sigma S_j} \sim t_{n-p} $$ como se desea (bajo todos los supuestos anteriores).
Aquí está la prueba de ese resultado. Sea $C = {A \choose B}$ sea el $(l+m)\times k$ matriz formada por el apilamiento de $A$ encima de $B$ . Entonces $$ CZ = {AZ \choose BZ} \sim \mathcal N \left({A\mu \choose B\mu}, C\Sigma C^T \right) $$ donde $$ C\Sigma C^T = {A \choose B} \Sigma \left(\begin{array}{cc} A^T & B^T \end{array}\right) = \left(\begin{array}{cc}A\Sigma A^T & A\Sigma B^T \\ B\Sigma A^T & B\Sigma B^T\end{array}\right). $$ $CZ$ es una gaussiana multivariante y es un resultado bien conocido que dos componentes de una gaussiana multivariante son independientes si y sólo si no están correlacionadas, por lo que la condición $A\Sigma B^T = 0$ resulta ser exactamente equivalente a los componentes $AZ$ y $BZ$ en $CZ$ no están correlacionados.
$\square$