3 votos

Distribución T frente a distribución normal (medias muestrales e inferencia lineal)

De los apuntes del curso, veo que cuando se trabaja con una variable cuantitativa, podemos estandarizar la media muestral para que tenga una distribución normal (según el teorema del límite central) siempre que el tamaño de la muestra sea "grande". Como resultado, la distribución de las medias muestrales es una distribución normal (tanto si trabajamos con $\sigma$ o s) siempre que el tamaño de la muestra sea "grande":

$$\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1),$$

$$\frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sim N(0,1),$$

Si el tamaño de la muestra es "pequeño", entonces tendremos una distribución t:

$$\frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sim t_{n-1}.$$

Sin embargo, hace poco empezamos a estudiar la inferencia para la regresión lineal, y veo las dos ecuaciones siguientes:

$$\frac{\hat{\mu}_{y|x} - {\mu}_{y|x}} {\sigma{\sqrt{\frac{1}{n}+\frac{(x-\overline{x})^2}{\sum_i(x_i-\overline{x})^2 }}}} \sim N(0,1),$$

$$\frac{\hat{\mu}_{y|x} - {\mu}_{y|x}} {s{\sqrt{\frac{1}{n}+\frac{(x-\overline{x})^2}{\sum_i(x_i-\overline{x})^2 }}}} \sim t_{n-2}.$$

Me pregunto si la segunda ecuación puede tener una distribución normal si el tamaño de la muestra es "grande". En otras palabras, si tenemos un gran tamaño de la muestra, entonces todavía podemos utilizar el teorema del límite central y demostrar que:

$$\frac{\hat{\mu}_{y|x} - {\mu}_{y|x}} {s{\sqrt{\frac{1}{n}+\frac{(x-\overline{x})^2}{\sum_i(x_i-\overline{x})^2 }}}} \sim N(0,1).$$

Los apuntes del curso hacen ver que cuando se trabaja con $\hat{\mu}_{y|x}$ (una media muestral) no podemos utilizar el teorema del límite central como para $\overline{x}$ (una media muestral). En el caso de la regresión lineal, parece que sólo $\sigma$ y s determinan si tenemos una distribución normal o una distribución t, respectivamente.

¿Es esto correcto, y si es así, por qué no podemos aplicar el teorema del límite central en el caso de la regresión lineal?

2voto

user164061 Puntos 281

La diferencia es el "tipo de prueba" y no el "tamaño de la muestra".

La diferencia entre la fórmula de los dos, $\sigma$ vs $s$ es no en la diferencia del tamaño de la muestra.

La diferencia es si $\sigma$ es conocido o estimado. La primera fórmula utiliza una normalización con una desviación estándar "conocida", y la segunda fórmula utiliza una normalización con la estimación muestral de la desviación estándar. La primera, $\sigma$ es un constante El segundo, $s$ es un variable aleatoria (con distribución chi-cuadrado).

Así que la diferencia es:

  • se utiliza la distribución t $\mathcal{N}(0,1)/\sqrt{\chi_{n-1}/(n-1)}$ para describir la distribución de la diferencia entre una "media muestral" y "la media poblacional", si esta diferencia se normaliza en base a la estimación de la muestra de la desviación estándar
  • y se utiliza la distribución normal $\mathcal{N}(0,1)$ para describir la distribución de la diferencia entre una "media muestral" y "la media poblacional", si esta diferencia se normaliza en base a la desviación estándar de la población .

Nota:

para tamaños de muestra grandes se consigue que la distribución de este denominador de chi-cuadrado se acerque a un pico alrededor de 1 $$\lim_{n \to \infty} \sigma_{\left(\frac{\chi_{n-1}}{n-1}\right)} = \sqrt{\frac{2}{n-1}}= 0 \qquad \mathrm{and} \qquad \mu_{\left(\frac{\chi_{n-1}}{n-1}\right)} = 1 $$ o, en otras palabras, la estimación muestral de la desviación típica es menos variable $$ \lim_{n \to \infty} s = \sigma$$ y la distribución t se convierte aproximadamente en una distribución normal $$ \lim_{n \to \infty} t_n = \mathcal{N}(0,1)$$

Así que se podría decir que: para tamaños de muestra grandes la fórmula que se utiliza con la desviación estándar estimada de la muestra se aproxima a la fórmula que se utiliza con la desviación estándar conocida.

Este es un diferentes cosa que el teorema del límite central en el que una media de muestra de variables de una distribución no normal se convierte en una distribución normal para grandes $n$ .


Nota:

La desviación estándar a menudo no se conoce "realmente". Pero puede conocerse "hipotéticamente". Por ejemplo, en la comprobación de una hipótesis o en la inferencia bayesiana se "asume" una determinada desviación. (del mismo modo que $\mu$ no se conoce, pero se puede usar en la fórmula y utilizarla hipotéticamente, por ejemplo para determinar los intervalos de confianza)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X