Por definición, la varianza se calcula tomando la suma de las diferencias al cuadrado con respecto a la media y dividiéndola por el tamaño. Tenemos la fórmula general
$\sigma^2= \frac{\sum_{i}^{N}(X_i-\mu)^2}{N}$ donde $\mu$ es la media y $N$ es el tamaño de la población.
Según esta definición, la varianza de una muestra (por ejemplo, la muestra $t$ ) también debe calcularse de esta manera.
$\sigma^2_t= \frac{\sum_{i}^{n}(X_i-\overline{X})^2}{n}$ donde $\overline{X}$ es la media y $n$ es el tamaño de esta pequeña muestra.
Sin embargo, por la varianza de la muestra $S^2$ nos referimos a un estimador de la varianza de la población $\sigma^2$ . ¿Cómo podemos estimar $\sigma^2$ sólo utilizando los valores de la muestra?
Según las fórmulas anteriores, la variable aleatoria $X$ se desvía de la media de la muestra $\overline{X}$ con la varianza $\sigma^2_t$ . La media de la muestra $\overline{X}$ también se desvía de $\mu$ con la varianza $\frac{\sigma^2}{n}$ porque la media de la muestra obtiene valores diferentes de una muestra a otra y es una variable aleatoria con media $\mu$ y la varianza $\frac{\sigma^2}{n}$ . (Se puede probar fácilmente).
Por lo tanto, aproximadamente, $X$ debe desviarse de $\mu$ con una varianza que implica dos variantes por lo que se suman estas dos y se obtiene $\sigma^2=\sigma^2_t+\frac{\sigma^2}{n}$ . Resolviendo esto, obtenemos $\sigma^2=\sigma^2_t \times\frac{n}{n-1}$ . Sustitución de $\sigma^2_t$ da nuestro estimador de la varianza de la población:
$S^2= \frac{\sum_{i}^{n}(X_i-\overline{X})^2}{n-1}$ .
También se puede demostrar que $E[S^2]=\sigma^2$ es cierto.
47 votos
Me gustaría citar esta frase del libro Recetas numéricas : "...si la diferencia entre $n$ y $n-1$ Si alguna vez te importa, es probable que no estés haciendo nada bueno, por ejemplo, tratando de fundamentar una hipótesis dudosa con datos marginales".
18 votos
Una explicación realmente elegante e intuitiva se presenta aquí (debajo de la prueba) es.wikipedia.org/wiki/ La idea básica es que sus observaciones van a estar, naturalmente, más cerca de la media de la muestra que de la media de la población.
13 votos
@Tal, Esta es la razón por la que las escuelas apestan. Les preguntas "por qué este ?", y ellos responden "sólo hay que memorizarlo".
5 votos
Si busca una explicación intuitiva, debería ver la razón por sí mismo tomando realmente muestras. Mire esto, responde con precisión a su pregunta. youtube.com/watch?v=xslIhnquFoE
1 votos
tl;dr: (de la respuesta superior:) "...la desviación estándar que se calcula utilizando las desviaciones de la media de la muestra subestima la desviación estándar deseada de la población..." Véase también: es.wikipedia.org/wiki/ Así que, a no ser que te apetezca calcular algo algo complejo, utiliza simplemente n-1 si es de una muestra.