El problema básico es que, como se suele decir, "se agota un grado de libertad" cuando se utiliza la media muestral para centrar los valores en el cálculo de la varianza muestral.
Imagina que extraes tres observaciones de una distribución normal con media cero y desviación típica 1. Supón que esas tres observaciones son 0, 1 y 1. Ahora, supongamos que esas tres observaciones son 0, 1, 1. En secreto, todos sabemos que $\mu$ es 0, por lo que la suma de varianzas de los términos centrados de segundo orden es $1^2+1^2=2$ .
Pero su estimación $\mu$ de los datos es 0,667, es decir, dos tercios. Por lo tanto, al calcular ahora el estimador muestral, la suma de esos cuadrados centrados = $\frac{2}{3}^2+\frac{1}{3}^2+\frac{1}{3}^2 = \frac{2}{3}$ .
En este caso es extremo, ya que tenemos dos valores atípicos bastante alejados de la media real y un punto justo en ella; por lo que la estimación de la media hace aritméticamente demasiado pequeña la suma de cuadrados de las observaciones centradas. Por eso la $\frac{1}{n-1}$ en lugar de dividir por n.
Tu idea parece buena a primera vista. ¿Por qué no utilizar una muestra distinta de la misma población para calcular la media estimada? $\hat\mu$ ¿para no agotar un grado de libertad?
A primera vista parece sensato, pero se plantean dos problemas. En primer lugar, en el mundo real a menudo sólo disponemos de n observaciones con las que trabajar. En segundo lugar, cuando podemos, preferimos agruparlos con los demás datos para tener más precisión en la estimación de todos los parámetros. En otras palabras, si tenemos dos muestras de 100, obtendremos resultados más fiables tratándolas como una sola muestra de 200 y utilizando $\frac{1}{n-1}$ en el cálculo de la varianza muestral estimada.