Intentaré dar una explicación intuitiva.
El estadístico t* tiene un numerador y un denominador. Por ejemplo, el estadístico de la prueba t de una muestra es
$$\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$
*(hay varios, pero esperamos que este debate sea lo suficientemente general como para abarcar los que usted pregunta).
Según los supuestos, el numerador tiene una distribución normal con media 0 y una desviación típica desconocida.
Con el mismo conjunto de supuestos, el denominador es una estimación de la desviación típica de la distribución del numerador (el error típico de la estadística sobre el numerador). Es independiente del numerador. Su cuadrado es una variable aleatoria chi-cuadrado dividida por sus grados de libertad (que también es la f.d. de la distribución t) multiplicada por $\sigma_\text{numerator}$ .
Cuando los grados de libertad son pequeños, el denominador tiende a estar bastante torcido a la derecha. Tiene una alta probabilidad de ser menor que su media y una probabilidad relativamente alta de ser bastante pequeño. Al mismo tiempo, también tiene alguna posibilidad de ser mucho, mucho mayor que su media.
Bajo el supuesto de normalidad, el numerador y el denominador son independientes. Así que si extraemos al azar de la distribución de este estadístico t tenemos un número aleatorio normal dividido por un segundo valor elegido al azar* de una distribución sesgada a la derecha que está en promedio alrededor de 1.
* sin tener en cuenta el plazo normal
Como está en el denominador, los valores pequeños en la distribución del denominador producen valores t muy grandes. El sesgo a la derecha en el denominador hace que el estadístico t sea de cola pesada. La cola derecha de la distribución, cuando está en el denominador hace que la distribución t tenga picos más agudos que una normal con la misma desviación estándar que la t .
Sin embargo, a medida que aumentan los grados de libertad, la distribución adquiere un aspecto mucho más normal y más "ajustado" en torno a su media.
Como tal, el efecto de dividir por el denominador sobre la forma de la distribución del numerador se reduce a medida que aumentan los grados de libertad.
Con el tiempo -como podría sugerirnos el teorema de Slutsky- el efecto del denominador se parece más a dividir por una constante y la distribución del estadístico t se aproxima mucho a la normal.
Considerado en términos del recíproco del denominador
whuber sugirió en los comentarios que podría ser más esclarecedor observar el recíproco del denominador. Es decir, podríamos escribir nuestras estadísticas t como numerador (normal) por recíproco del denominador (desviación a la derecha).
Por ejemplo, nuestra estadística-t de una muestra anterior pasaría a ser:
$${\sqrt{n}(\bar{x}-\mu_0)}\cdot{1/s}$$
Consideremos ahora la desviación típica de la población del original $X_i$ , $\sigma_x$ . Podemos multiplicar y dividir por él, así:
$${\sqrt{n}(\bar{x}-\mu_0)/\sigma_x}\cdot{\sigma_x/s}$$
El primer término es normal estándar. El segundo término (la raíz cuadrada de una variable aleatoria inversa-chi-cuadrado escalada) escala entonces esa normal estándar por valores que son mayores o menores que 1, "extendiéndola".
Bajo el supuesto de normalidad, los dos términos del producto son independientes. Por tanto, si extraemos aleatoriamente de la distribución de este estadístico t, tenemos un número aleatorio normal (el primer término del producto) multiplicado por un segundo valor elegido aleatoriamente (sin tener en cuenta el término normal) de una distribución sesgada a la derecha que está "típicamente" en torno a 1.
Cuando los f.d. son grandes, el valor tiende a ser muy cercano a 1, pero cuando los f.d. son pequeños, es bastante sesgado y la dispersión es grande, con la gran cola derecha de este factor de escala haciendo la cola bastante gorda: