Si se aplica la corrección de Bessel -dividiendo por $5-1$ en lugar de por $5$ cuando se tiene $5$ números --- entonces algunas de las cosas, por lo demás correctas, expuestas en algunas de las respuestas son erróneas. La corrección de Bessel está pensada para ser utilizada sólo cuando la varianza que se calcula se basa en una muestra que se utilizará para estimación la varianza de toda la población.
No me extraña que nadie utilizara la varianza y la desviación típica antes de que lo hiciera Abraham de Moivre en el siglo XVIII. De Moivre consideró esta cuestión: Si se lanza una moneda justa $1800$ veces, ¿cuál es la probabilidad de que el número de cabezas esté en un rango determinado? Se tiene una distribución binomial, y calcular sus valores exactos no era factible. De Moivre aproximó la distribución del número de cabezas con una distribución normal con la misma media y la misma desviación estándar. Al hacerlo, fue el primero en introducir la distribución normal, y el primero en demostrar un caso especial del teorema del límite central. La distribución normal con media $0$ y la varianza $1$ es $$ \varphi(x)\,dx=\frac 1 {\sqrt{2\pi}} e^{-x^2/2}\,dx $$ y con la media $\mu$ y la varianza $\sigma^2$ es $$ \varphi\left(\frac{x-\mu}\sigma\right)\, \frac{dx}\sigma. $$ Es fácil encontrar la media y la desviación estándar para el número de caras cuando se lanza una moneda justa: ambas son $1/2$ . ¿Cómo se hace para la suma de $1800$ copias independientes de esa variable aleatoria? De Moivre encontró que la desviación media cuadrática es aditivo para variables aleatorias independientes $X_1,\ldots,X_{1800}$ uno tiene $\operatorname{var}(X_1+\cdots+X_{1800})=\operatorname{var}(X_1)+\cdots+\operatorname{var}(X_{1800})$ . No se puede hacer eso con la desviación media absoluta. Si no recuerdo mal algunos detalles, publicó estos resultados en un artículo en latín mientras vivía en Francia, y en ese momento dio la distribución normal como $$ C e^{-x^2/2}\,dx $$ donde podría encontrar $C$ sólo numéricamente. Más tarde fue a Inglaterra para escapar de la persecución de los protestantes y conoció a James Stirling, quien demostró que $C=1/\sqrt{2\pi}$ . De Moivre escribió un libro en inglés titulado La doctrina del azar que creo que era el inglés del siglo XVIII para la teoría de la probabilidad. Algunos han especulado que el reverendo Thomas Bayes pudo haber estudiado con él, pero no sé si eso ha pasado de ser una especulación.
(Si quieres saber la probabilidad de que el número de cabezas sea $\ge894$ , tenga en cuenta que eso es lo mismo que $\text{“}{>893}\text{''}$ y hallar la probabilidad de que la variable aleatoria normalmente distribuida con la misma media y varianza sea $>893.5$ . Se trata de una "corrección de continuidad" y funciona sorprendentemente bien incluso para muestras bastante pequeñas).
Sobre la corrección de Bessel: ¿Cuándo se utiliza $$ \frac{(x_1-\bar x)^2+\cdots+(x_n-\bar x)^2}{n-1}, $$ donde $\bar x=(x_1+\cdots+x_n)/n$ con $n-1$ en lugar de $n$ en el denominador? Como se puede ver en ejemplos sencillos, eso no sirven al propósito de De Moivre descrito anteriormente: no son aditivos.
Si $X_1,\ldots,X_n$ son una muestra independiente de una población con media $\mu$ y la varianza $\sigma^2$ entonces el valor esperado de $$ \frac{(X_1-\mu)^2+\cdots+(X_n-\mu)^2} n \tag 1 $$ es $\sigma^2$ . Pero si sólo se tiene la muestra y no toda la población, no se sabe $\mu$ y se puede utilizar la media muestral $\bar X$ como una estimación de $\mu$ . Pero el valor esperado de $$ \frac{(X_1-\bar X)^2+\cdots+(X_n-\bar X)^2} n $$ es menor que el valor esperado de $(1)$ . En concreto, un poco de álgebra muestra que $$ \sum_{i=1}^n (X_i-\mu)^2 = \left( \sum_{i=1}^n (X_i-\bar X)^2 \right) + n(\bar X-\mu)^2, \tag 2 $$ y como la expectativa del último término es $\sigma^2$ la del primer término de la derecha en $(2)$ debe ser $(n-1)\sigma^2$ . Así, la corrección de Bessel proporciona una estimación insesgada de la varianza de la población $\sigma^2$ . (Pero su raíz cuadrada no proporciona una estimación insesgada de la desviación estándar de la población. Y la insesgadez está, en el mejor de los casos, algo sobrevalorada, y en algunos casos es algo muy, muy malo (yo tenía un papel en el Boletín Mensual de Matemáticas de Estados Unidos hace unos años demostrando lo malo que puede ser a veces).