23 votos

¿Por qué la distribución t se vuelve más normal a medida que aumenta el tamaño de la muestra?

Según Wikipedia, entiendo que la distribución t es la distribución muestral del valor t cuando las muestras son observaciones iid de una población normalmente distribuida. Sin embargo, no entiendo intuitivamente por qué eso hace que la forma de la distribución t cambie de cola gorda a casi perfectamente normal.

Entiendo que si se toma una muestra de una distribución normal, entonces si se toma una muestra grande se parecerá a esa distribución, pero no entiendo por qué empieza con la forma de cola gorda que tiene.

27voto

AdamSane Puntos 1825

Intentaré dar una explicación intuitiva.

El estadístico t* tiene un numerador y un denominador. Por ejemplo, el estadístico de la prueba t de una muestra es

$$\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$

*(hay varios, pero esperamos que este debate sea lo suficientemente general como para abarcar los que usted pregunta).

Según los supuestos, el numerador tiene una distribución normal con media 0 y una desviación típica desconocida.

Con el mismo conjunto de supuestos, el denominador es una estimación de la desviación típica de la distribución del numerador (el error típico de la estadística sobre el numerador). Es independiente del numerador. Su cuadrado es una variable aleatoria chi-cuadrado dividida por sus grados de libertad (que también es la f.d. de la distribución t) multiplicada por $\sigma_\text{numerator}$ .

Cuando los grados de libertad son pequeños, el denominador tiende a estar bastante torcido a la derecha. Tiene una alta probabilidad de ser menor que su media y una probabilidad relativamente alta de ser bastante pequeño. Al mismo tiempo, también tiene alguna posibilidad de ser mucho, mucho mayor que su media.

Bajo el supuesto de normalidad, el numerador y el denominador son independientes. Así que si extraemos al azar de la distribución de este estadístico t tenemos un número aleatorio normal dividido por un segundo valor elegido al azar* de una distribución sesgada a la derecha que está en promedio alrededor de 1.

* sin tener en cuenta el plazo normal

Como está en el denominador, los valores pequeños en la distribución del denominador producen valores t muy grandes. El sesgo a la derecha en el denominador hace que el estadístico t sea de cola pesada. La cola derecha de la distribución, cuando está en el denominador hace que la distribución t tenga picos más agudos que una normal con la misma desviación estándar que la t .

Sin embargo, a medida que aumentan los grados de libertad, la distribución adquiere un aspecto mucho más normal y más "ajustado" en torno a su media.

enter image description here

Como tal, el efecto de dividir por el denominador sobre la forma de la distribución del numerador se reduce a medida que aumentan los grados de libertad.

Con el tiempo -como podría sugerirnos el teorema de Slutsky- el efecto del denominador se parece más a dividir por una constante y la distribución del estadístico t se aproxima mucho a la normal.


Considerado en términos del recíproco del denominador

whuber sugirió en los comentarios que podría ser más esclarecedor observar el recíproco del denominador. Es decir, podríamos escribir nuestras estadísticas t como numerador (normal) por recíproco del denominador (desviación a la derecha).

Por ejemplo, nuestra estadística-t de una muestra anterior pasaría a ser:

$${\sqrt{n}(\bar{x}-\mu_0)}\cdot{1/s}$$

Consideremos ahora la desviación típica de la población del original $X_i$ , $\sigma_x$ . Podemos multiplicar y dividir por él, así:

$${\sqrt{n}(\bar{x}-\mu_0)/\sigma_x}\cdot{\sigma_x/s}$$

El primer término es normal estándar. El segundo término (la raíz cuadrada de una variable aleatoria inversa-chi-cuadrado escalada) escala entonces esa normal estándar por valores que son mayores o menores que 1, "extendiéndola".

Bajo el supuesto de normalidad, los dos términos del producto son independientes. Por tanto, si extraemos aleatoriamente de la distribución de este estadístico t, tenemos un número aleatorio normal (el primer término del producto) multiplicado por un segundo valor elegido aleatoriamente (sin tener en cuenta el término normal) de una distribución sesgada a la derecha que está "típicamente" en torno a 1.

Cuando los f.d. son grandes, el valor tiende a ser muy cercano a 1, pero cuando los f.d. son pequeños, es bastante sesgado y la dispersión es grande, con la gran cola derecha de este factor de escala haciendo la cola bastante gorda:

enter image description here

10voto

Mihai Nita Puntos 2870

@Glen_b te dio la intuición de por qué el estadístico t parece más normal a medida que aumenta el tamaño de la muestra. Ahora, te daré una explicación un poco más técnica para el caso en que ya tengas la distribución del estadístico.

Es bien sabido que el estadístico t se distribuye como una distribución t de Student con $n-1$ grados de libertad, donde $n$ es el tamaño de la muestra. La densidad correspondiente tiene el siguiente aspecto:

$$\frac{\left(1+\frac{x^2}{n-1}\right)^{-n/2}}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}.$$

Es posible demostrar que

$$\frac{1}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}\rightarrow \frac{1}{\sqrt{2\pi}},$$

y

$$\left(1+\frac{x^2}{n-1}\right)^{-n/2}\rightarrow \exp(-x^2/2),$$

como $n\rightarrow \infty$ . Tomando el producto de estos dos límites se puede ver que la densidad Student-t converge exactamente a la densidad normal estándar.

5voto

Craig Puntos 1

Sólo quería compartir algo que ayudó a mi intuición de principiante (aunque es menos riguroso que las otras respuestas).

Si $Z, Z_1, ..., Z_n$ son RV normales estándar iid entonces la siguiente RV,

$$\frac{Z}{\sqrt{\frac{Z_1^2+...+Z_n^2}{n}}}$$

tiene una distribución t con $n$ grados de libertad.

En $n$ se hace realmente grande, utilizando la ley de los grandes números podemos ver que el denominador va a $1$ . Así que sólo te queda $Z$ que es normal estándar, razón por la cual la distribución t parece normal como $n$ se hace grande.

Para profundizar... tenga en cuenta que $E[Z^2] = 1$ que dice que el valor esperado de una RV chi al cuadrado es uno. La fracción de la raíz cuadrada es simplemente la media muestral de $n$ iid $Z_i^2$ Autocaravanas. La media muestral como $n$ se hace supergrande será igual al valor esperado de una sola de las $Z_i^2$ que es uno.

Así como $n$ se hace muy grande sólo te queda $\frac{Z}{\sqrt{1}} = Z$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X