86 votos

¿Cómo se pusieron de acuerdo los estadísticos para utilizar (n-1) como estimador insesgado de la varianza de la población sin simulación?

La fórmula para calcular la varianza tiene $(n-1)$ en el denominador:

$s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1}$

Siempre me he preguntado por qué. Sin embargo, leyendo y viendo algunos buenos videos sobre "por qué" es, parece, $(n-1)$ es un buen estimador insesgado de la varianza de la población. Mientras que $n$ subestima y $(n-2)$ sobreestima la varianza de la población.

Lo que tengo curiosidad por saber es que, en la época en la que no había ordenadores, ¿cómo se hizo exactamente esta elección? ¿Existe una prueba matemática real que lo demuestre o era puramente empírica y los estadísticos hacían MUCHOS cálculos a mano para llegar a la "mejor explicación" de la época?

¿Cómo llegaron los estadísticos a esta fórmula a principios del siglo XIX con la ayuda de los ordenadores? ¿Manual o hay algo más de lo que parece?

61voto

AdamSane Puntos 1825

La mayoría de las pruebas que he visto son lo suficientemente sencillas como para que a Gauss (independientemente de cómo lo hiciera) le resultara bastante fácil de demostrar.

He estado buscando una derivación en CV que pueda enlazarte (hay varios enlaces a pruebas fuera del sitio, incluyendo al menos una en respuestas aquí), pero no he encontrado ninguna aquí en CV en un par de búsquedas, así que en aras de la exhaustividad, daré una simple. Dada su simplicidad, es fácil ver cómo la gente empezaría a utilizar lo que normalmente se llama La corrección de Bessel .

Esto requiere $E(X^2)=\text{Var}(X) + E(X)^2$ como conocimiento asumido, y asume que los primeros propiedades básicas de la varianza son conocidos.

\begin{eqnarray} E[\sum_{i=1}^{n} (x_i-\bar x)^2] &=& E[\sum_{i=1}^{n} x_i^2-2\bar x\sum_{i=1}^{n} x_i+n\bar{x}^2]\\ &=& E[\sum_{i=1}^{n} x_i^2-n\bar{x}^2] \\ &=& n E[x_i^2]- n E[\bar{x}^2]\\ &=& n (\mu^2 + \sigma^2) - n(\mu^2+\sigma^2/n)\\ &=& (n-1) \sigma^2 \end{eqnarray}

48voto

mnbve Puntos 11

La corrección se llama La corrección de Bessel y tiene una prueba matemática. Personalmente, me lo enseñaron de la manera más fácil: usando $n-1$ es como se corrige el sesgo de $E[\frac{1}{n}\sum_1^n(x_i - \bar x)^2]$ (ver aquí ).

También puedes explicar la corrección basándote en el concepto de grados de libertad, la simulación no es estrictamente necesaria.

37voto

Ankur Loriya Puntos 160

Según el Mundo de las Matemáticas de Weisstein, fue demostrado por primera vez por Gauss en 1823. La referencia es el volumen 4 de los Werke de Gauss, que puede leerse en https://archive.org/details/werkecarlf04gausrich . Las páginas relevantes parecen ser las 47-49. Parece que Gauss investigó la cuestión y llegó a una prueba. No leo latín, pero hay un resumen en alemán en el texto. Las páginas 103-104 explican lo que hizo (Edición: he añadido una traducción aproximada):

Sin embargo, como no se puede juzgar los valores más seguros para el los verdaderos valores en sí mismos, es fácil convencerse de que por esta que por este procedimiento siempre se puede encontrar el más probable y y el error medio son demasiado pequeños, y por lo tanto se atribuye una mayor precisión a la resultados una mayor precisión de la que realmente poseen. poseer. [Pero como uno no tiene derecho a tratar los valores más probables como si fueran los valores reales, puede convencerse fácilmente de que siempre hay que encontrar que el error más probable y el error medio son demasiado pequeños, y que por lo tanto los resultados dados poseen una mayor precisión de la que realmente tienen].

de lo que se desprende que es bien sabido que la varianza de la muestra es una estimación sesgada de la varianza de la población. El artículo continúa diciendo que la diferencia entre ambas suele ignorarse porque no es importante si el tamaño de la muestra es lo suficientemente grande. Luego dice:

Por ello, el autor ha sometido este tema a una especial que ha llevado a un resultado muy extraño y muy simple. resultado. Se necesita el error medio encontrado según el indicado el método indicado, para transformarlo en el correcto, sólo hay que en la correcta, sólo con

$$\sqrt{\frac{\pi-\rho}{\pi}}$$

zu multiplicieren, wo $\pi$ el número de observaciones (número de observaciones) y $\rho$ significa el número de cantidades desconocidas (número de incógnitas). [Por lo tanto, el autor ha hecho un estudio especial de este objeto que ha llevado a un resultado muy extraño y extremadamente simple. A saber, basta con multiplicar el error medio encontrado por el proceso erróneo anterior por (la expresión dada) para cambiarlo por el correcto, donde $\pi$ es el número de observaciones y $\rho$ es el número de incógnitas].

Así que si ésta es realmente la primera vez que se encuentra la corrección, parece que se encontró mediante un cálculo inteligente de Gauss, pero la gente ya era consciente de que se necesitaba alguna corrección, así que quizás alguien más podría haberla encontrado empíricamente antes de esto. O, posiblemente, los autores anteriores no se preocuparon de deducir la respuesta precisa porque, de todos modos, trabajaban con conjuntos de datos bastante grandes.

Resumen: manual, pero la gente ya lo sabía $n$ en el denominador no era del todo correcto.

17voto

Para mí una intuición es que

$$\begin{array}{c} \mbox{The degree to which}\\ X_{i}\mbox{ varies from }\bar{X} \end{array}+\begin{array}{c} \mbox{The degree to which}\\ \bar{X}\mbox{ varies from }\mu \end{array}=\begin{array}{c} \mbox{The degree to which }\\ X_{i}\mbox{ varies from }\mu. \end{array}$$

Eso es,

$$\mathbf{E}\left[\left(X_{i}-\bar{X}\right)^{2}\right]+\mathbf{E}\left[\left(\bar{X}-\mu\right)^{2}\right]=\mathbf{E}\left[\left(X_{i}-\mu\right)^{2}\right].$$

En realidad, demostrar la ecuación anterior requiere un poco de álgebra (esta álgebra es muy similar a la respuesta de @Glen_b más arriba). Pero suponiendo que es cierto, podemos reorganizar para obtener:

$$\mathbf{E}\left[\left(X_{i}-\bar{X}\right)^{2}\right]=\underset{\sigma^{2}}{\underbrace{\mathbf{E}\left[\left(X_{i}-\mu\right)^{2}\right]}}-\underset{\frac{\sigma^{2}}{n}}{\underbrace{\mathbf{E}\left[\left(\bar{X}-\mu\right)^{2}\right]}}=\frac{n-1}{n}\sigma^2.$$

Para mí, otra intuición es que el uso de $\bar{X}$ en lugar de $\mu$ introduce un sesgo. Y este sesgo es exactamente igual a $\mathbf{E}\left[\left(\bar{X}-\mu\right)^{2}\right]=\frac{\sigma^2}{n}$ .

13voto

JeopardyTempest Puntos 136

La mayoría de las respuestas ya lo han explicado detalladamente, pero aparte de ellas hay una simple ilustración que podría ser útil:

Supongamos que te dan que $n=4$ y los tres primeros números son:

$8,4,6$ ,_

Ahora el cuarto número puede ser cualquier cosa ya que no hay restricciones. Ahora considere la situación cuando se le da que $n=4$ y $\bar x=6$ entonces si los tres primeros números son: $8,4,6$ entonces el cuarto número tiene que ser $6$ .

Esto quiere decir que si usted sabe $n-1$ valores y $\bar x$ entonces el $nth$ valor no tiene libertad. Así, $n-1$ nos da un estimador insesgado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X