Está claro que la distribución t debe ser utilizada cuando el tamaño de la muestra es pequeño y la varianza de la población es desconocida. Mi pregunta es ¿Por qué? ¿Por qué usamos la distribución t en este caso? ¿Alguien me puede dar razones específicas para ello?
Respuesta
¿Demasiados anuncios?Supongo que tienes observaciones aleatorias $X_1, X_2, \dots, X_n$ de una población $Norm(\mu, \sigma),$ donde tanto $\mu$ como $\sigma$ son desconocidos.
Antes de 1935, cuando William S. Gossett (escribiendo como 'A. Student'), presentó la distribución t, la práctica era asumir que $n$ era suficientemente grande para que la desviación estándar muestral $S$ proporcionara una "buena" estimación de $\sigma.$ Luego, para probar $H_O: \mu = \mu_0$ contra $H_a: \mu \ne \mu_0$ utilizando la estadística de prueba aproximada $$Z_{\text{aprox}} = \frac{\bar X - \mu_0}{S/\sqrt{n}}\;\; \text{en lugar de la estadística exacta } Z = \frac{\bar X - \mu_0}{\sigma/\sqrt{n}},$$ rechazando $H_0$ al nivel de significancia del 5% cuando $|Z_{\text{aprox}}| > 1.96.$
La contribución de "Student" (con algo de ayuda de otros) fue derivar la distribución exacta de la estadística $$T = \frac{\bar X - \mu_0}{S/\sqrt{n}},$$ que ahora se conoce, y se tabula ampliamente, como la distribución t de Student con grados de libertad $\nu = n-1$ o $T(\nu).$
En el lenguaje técnico de hoy en día,
$$T \triangleq \frac{Z}{\sqrt{\chi_{\nu}^2/\nu}},$$
donde $Z \sim Norm(0,1)$ y $\chi_{\nu}^2$ es una variable aleatoria de Chi-cuadrado con $\nu$ grados de libertad.
El valor crítico de una prueba en el nivel del 5% es un valor $t^*$ que corta el 2.5% de la probabilidad de la cola superior de la distribución $T(\nu)$ y el 2.5% de la probabilidad de la cola inferior. Ver abajo para $\alpha = 5% = 0.05$.
Resulta que $t^* > 1.96$ para todos $\nu = n-1,$ pero para $n$ mayor a aproximadamente 30, tanto $1.96$ como $t^*$ se aproximan a $2.0.$ Por lo tanto, la "regla" de que las muestras "grandes" son aquellas de tamaño mayor a 30. (Una regla que debe usarse con mucha precaución porque realmente funciona solo para pruebas al nivel del 5%.)
Para valores muy pequeños de $n,$ puede ser desastroso usar $1.96$ en lugar de $t^*$: para $n = 5,$ tenemos $t^* = 2.776$. Si usaras $1.96$ en su lugar, la tasa real de rechazo de $H_0$ sería aproximadamente 12% en lugar de el 5% deseado.
Nota: El artículo de Wikipedia sobre la 'distribución t' muestra gráficos de la función de densidad de t para varios valores de $\nu$ y para "$\nu = \infty$," que es normal estándar. A la escala de esos gráficos sería difícil o imposible distinguir gráficos de $\nu = \infty$ y $\nu = 50,$ pero los errores relativos en las colas extremas pueden ser muy grandes.
Para comprender la profunda diferencia entre una prueba que utiliza tanto $\bar X$ como $S$ y una prueba que utiliza solo $\bar X$ se puede hacer un gráfico bivariado o de pares $(\bar X, S)$ de muchas muestras de tamaño cinco. Para estas muestras $\mu = \mu_0 = 100$ y $\sigma = 15$. En las muestras correspondientes a puntos claros (5% de ellos fuera del 'solapa del sobre'), la hipótesis nula sería rechazada al nivel del 5%. Una prueba basada solo en $\bar X$ tendría líneas verticales paralelas como límites, ignorando $S$. Una prueba t rechaza para la $combinación$ apropiada de $\bar X$ lejos de $\mu_0$ y $S$ pequeño.