Dejemos que $\mu$ sea la media de la población y $\sigma$ sea la DS de la población. Tiene observaciones $x_i$ de $k$ variables independientes $X_i$ tener un medio común $\mu$ y desviaciones $\sigma^2/n_i,$ $i=1,2,\ldots, k.$
No te comprometes con el sentido de "mejor". Para concretarlo, encontremos el estimador por mínimos cuadrados de $\sigma.$ Este es un Mínimos cuadrados ponderados problema con los pesos $1/(1/n_i)=n_i,$ de donde
$$\hat\mu = \frac{1}{n_1+n_2+\cdots+n_k}\, \left(n_1x_1 + n_2x_2 + \cdots + n_k x_k\right)$$
con residuos
$$r_i = x_i - \hat\mu$$
lo que implica
$$\hat\sigma^2 = \frac{1}{k-1}\, \left(n_1 r_1^2 + n_2 r_2^2 + \cdots + n_k r_k^2\right).$$
Por lo tanto, podemos tomar
$$\hat \sigma = \sqrt{\hat\sigma^2}$$
como una "mejor" estimación de $\sigma.$
Como comprobación, un álgebra sencilla verificará que $E[\hat\mu] = \mu$ y $E[\hat\sigma^2]=\sigma^2,$ propiedades estándar de las estimaciones por mínimos cuadrados. Como otra comprobación, estos cálculos reproducen exactamente el resultado del lm
función en R
utilizando el $n_i$ en su weights
argumento.