8 votos

¿Por qué se usa n-1 en el error estándar de la media pero n en pruebas de hipótesis?

Cuando divides en pruebas de hipótesis, utilizas la fórmula: $$ \frac{\bar X-\mu}{s/\sqrt n} $$ pero el error estándar de la media es: $$ \frac s{\sqrt {n-1}} $$

¿Por qué no se usa $n-1$ al calcular el error estándar utilizando la muestra de población?

1 votos

Por favor, coloque paréntesis donde sea necesario y formate su pregunta.

0 votos

0 votos

Esta también es una buena referencia stats.stackexchange.com/questions/3931/…

6voto

Michael R Puntos 191

El término $n-1$ NO aparece en la fórmula del error estándar tal como lo has escrito. Sin embargo, el término $n-1$ sí aparece en las ecuaciones de la varianza muestral y la desviación estándar muestral. Se utiliza para corregir el hecho de que $ \hat{\sigma^2} = \frac{1}{n} \sum(x_i - \bar{x})^2 $ es un estimador sesgado de la varianza. Esto se puede mostrar de la siguiente manera:

$ \hat{\sigma^2} = \frac{1}{n} \sum(x_i - \bar{x})^2 = \frac{1}{n} \sum (x_i^2 - 2x_i\bar{x} + \bar{x}^2) = \frac{1}{n} \sum (x_i^2 - x_i\bar{x} - x_i\bar{x} + \bar{x}^2) $

$ = \frac{1}{n} \sum (x_i[x_i-\bar{x}] - \bar{x}[\bar{x}-x_i]) = \frac{1}{n} \sum (x_i[x_i - \bar{x}]) - \frac{\bar{x}}{n} \sum [\bar{x} - x_i] $

Dado que $ \frac{\sum [\bar{x} - x_i]}{n} = 0 $, obtenemos:

$ = \frac{1}{n} \sum (x_i[x_i - \bar{x}]) = \frac{1}{n} \sum ({x_i}^2 - {x_i}\bar{x}) = \frac{\sum {x_i}^2}{n} - \bar{x} \sum \frac{x_i}{n} = \frac{\sum {x_i}^2}{n} - \bar{x}^2 $

Esto significa que:

$ E[\hat{\sigma^2}] = E[X^2] - E[\bar{x}^2] $

Sabemos que:

1) $ \sigma^2 = E[X^2] - (E[X])^2 \rightarrow E[X^2] = \sigma^2 + (E[X])^2 $

2) $ \bar{\sigma}^2 = \frac{\sigma^2}{n} = E[\bar{x}^2] - (E[\bar{x}])^2 \rightarrow \frac{\sigma^2}{n} + (E[\bar{x}])^2 $

Ahora sustituye estas ecuaciones de nuevo en la ecuación anterior para obtener:

$ E[\hat{\sigma^2}] = \sigma^2 + (E[X])^2 - (\frac{\sigma^2}{n} + (E[\bar{x}])^2) = \sigma^2 - \frac{\sigma^2}{n} = \sigma^2 (\frac{n-1}{n}) $

Para obtener un estimador no sesgado de $ \sigma^2 $, multiplicamos $ \hat{\sigma^2} $ por $ \frac{n}{n-1} $ para obtener:

$ s^2 = \frac{n}{n-1} \times \frac{1}{n} \sum(x_i - \bar{x})^2 = \frac{1}{n-1} \sum(x_i - \bar{x})^2 $

La cantidad $ s^2 $ se conoce como la varianza muestral, y $ s $ es la desviación estándar muestral. El error estándar es simplemente $ \frac{s}{\sqrt{n}} $.

2voto

A.G. Puntos 131

El error estándar de la media de la muestra en realidad es $$ \frac s{\sqrt n} $$ (aquí no hay término $n-1$).

En la prueba de hipótesis y en los intervalos de confianza se usa $Z=(\bar X-\mu)/(\sigma/\sqrt n)$ porque se utiliza el Teorema del Límite Central que establece que la media de la muestra $\bar X$ tiene una distribución normal con desviación estándar $\sigma/\sqrt n$. Si se utiliza la desviación estándar de la muestra, esto se reemplaza por $s/\sqrt n$ y la normal se reemplaza por una distribución t de Student.

Ahora, el $n-1$ entra en juego al calcular $$ s=\sqrt{\frac{1}{n-1}\sum (x_i-\bar x)^2}, $$ y está ahí para tener en cuenta el hecho de que, al calcular $s$, se utiliza la media de la muestra $\bar x$ en lugar de la (real, desconocida) media $\mu$.

2voto

Anthony Shaw Puntos 858

En esta respuesta, se muestra que dado que los datos de la muestra están más cerca de la media de la muestra, $\overline{x}$, que de la media de la distribución, $\mu$, la varianza de los datos de la muestra, calculada con $$ \frac1n\sum_{k=1}^n\left(x_k-\overline{x}\right)^2 $$ es, en promedio, más pequeña que la varianza de la distribución. De hecho, en promedio, $$ \frac{\text{varianza de los datos de la muestra}}{\text{varianza de la distribución}}=\frac{n-1}{n} $$ Por eso usamos $$ \frac1{n-1}\sum_{k=1}^n\left(x_k-\overline{x}\right)^2 $$ para estimar la varianza de la distribución dado los datos de la muestra.

0voto

Ben McDonald Puntos 1

Los encuestados anteriores se han centrado en cuándo, cómo y por qué se utiliza la corrección de Bessel para obtener una estimación no sesgada de la desviación estándar y aclararon que no se usa para calcular el error estándar de la media. Sin embargo, hasta donde puedo ver, no han respondido la muy buena pregunta planteada: "¿Por qué no se usa n-1 al calcular el error estándar usando la población de la muestra?"

Basta con algunas palabras sobre este tema. Ya se ha explicado de manera admirable en la respuesta anterior, gracias a robjohn, que la corrección de Bessel se aplica en la estimación de la desviación estándar de una distribución porque las desviaciones de la media de la muestra son generalmente más pequeñas que las desviaciones de la media de la distribución hipotética que genera los datos. (La media de la muestra sigue la multitud de los valores muestreados, si se quiere, mientras que la media de la distribución permanece donde está). Sin embargo, cuando realmente conocemos la media de la distribución y usamos las desviaciones de ella en lugar de la media de la muestra para estimar la desviación estándar, la corrección de Bessel no debe aplicarse, ya que el efecto de sesgo mencionado no ocurre.

Uno puede derivar el error estándar de la media procediendo de las definiciones adecuadas. Luego se encontraría que el error estándar, si no es nada en absoluto, es la desviación esperada de la media de la muestra respecto a la media de la distribución. En consecuencia, obtenemos una expresión para el error estándar en términos de (n y) esa forma de desviación estándar que utiliza desviaciones de los valores muestreados de la media de la población o de la media de la distribución hipotética, no de la media de la muestra. Por lo tanto, no es y no puede ser apropiado aplicar la corrección de Bessel en esta parte del proceso. Por eso una expresión de n-1 no aparece en ninguna fórmula para el error estándar en términos de σ y n.

Puede ser que estemos en la posición de tener que estimar la desviación estándar de la distribución para obtener el error estándar en la media de la muestra. En ese caso, por supuesto usaremos la estadística de la muestra adecuada con la corrección de Bessel aplicada, para obtener nuestra estimación de σ. Así que al final sí aplicamos la corrección por exactamente la misma razón: necesitamos estimar cuál es la desviación estándar de la distribución. Pero de lo contrario no aparece, porque el error estándar es, por definición, una desviación esperada de la media de la distribución en lugar de la media de la muestra.

Esto salió menos sucintamente de lo que había anticipado, pero espero que el punto principal sea aparente al final y que esto satisfaga la curiosidad de aquellos que lleguen a esta consulta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X