Dices que la varianza es ∑ni=1(xi−ˉx)2n−1∑ni=1(xi−¯x)2n−1.
¿Qué pasa si te digo que la varianza es ∑ni=1(xi−ˉx)2n∑ni=1(xi−¯x)2n?
Ambas se pueden encontrar en los libros de texto. De hecho, dividir por n−1n−1 en lugar de nn se hace correctamente (si es que se hace) SOLAMENTE cuando se está estimando la varianza de la población mediante el uso de una muestra finita x1,…,xnx1,…,xn que no es toda la población. Si x1,…,xnx1,…,xn es toda la población y cada punto es igualmente probable, entonces la varianza de esa población se da por la segunda expresión anterior, no la primera.
**
Ahora aquí está el punto importante:
var(X1+⋯+Xn)=var(X1)+⋯+var(Xn) si X1,…,Xn son variables aleatorias independientes.
Eso no funciona con la desviación media absoluta. (Tampoco funciona en la versión con n−1 en lugar de n.)
Ahora supongamos que n=1800 y cada Xi es el número de "caras" observadas en el lanzamiento de la moneda i, por lo que Xi es o bien 0 o 1. Entonces la suma es la cantidad de "caras" en 1800 lanzamientos. ¿Cuál es la probabilidad de que ese número sea al menos 890 pero no más de 905? Para responder a eso, uno aproxima la distribución del número de "caras" por la distribución normal con el mismo valor esperado y la misma varianza. ¡Sin la identidad (1), uno no sabría cuál es esa varianza! Abraham de Moivre descubrió todo esto en el 18 siglo. Y por eso se utilizan desviaciones estándar en lugar de desviaciones medias absolutas.
**