Una rápida:
Esto se deduce de una propiedad de los momentos ( una regla para transformar el centro )
$$E\left[(x-\hat{x})^n\right] = \sum_{i=0}^n {n \choose i} E\left[(x-a)^i\right] (a-\hat{x})^{n-i}$$
que se convierte en para $n=2$ y $a=\mu=E[X]$
$$E \left[(x-\hat{x})^2\right] = \underbrace{E \left[(x-\mu)^2\right] }_{=\text{Var}(x)} + 2 \underbrace{E \left[(x-\mu)\right] }_{=0} (\mu-\hat{x}) + (\mu-\hat{x})^2 = \text{Var}(x) + (\mu-\hat{x})^2 $$
y esto se minimiza cuando $\hat{x}=\mu$ .
Una más larga:
Va similar usando la expresión $∫dx p(x)(x−M)^2$
$$\begin{array}{} ∫dx p(x)(x−M)^2 &=& ∫dx p(x)\underbrace{((x-\mu)+(\mu-M))^2}_{=(x-\mu)^2 + 2(x-\mu)(\mu-M) + (\mu-M)^2} \\ & =& ∫dx p(x)(x-\mu)^2 + ∫dx p(x)2(x-\mu)(\mu-M) +∫dx p(x) (\mu-M)^2 \\ & =& ∫dx p(x)(x-\mu)^2 + ∫dx p(x)2 x(\mu-M) - ∫dx p(x)2\mu(\mu-M)+∫dx p(x) (\mu-M)^2 \\ & =& \underbrace{∫dx p(x)(x-\mu)^2}_{=\text{var}(x)} + 2 (\mu-M)\underbrace{∫dx p(x)x}_{=\mu} - 2 (\mu-M)\mu \underbrace{∫dx p(x)}_{=1}+(\mu-M)^2 \underbrace{∫dx p(x)}_{=1} \\ &=& \text{var}(x) +(\mu-M)^2 \end{array}$$
Intuitivamente:
En otras palabras, la varianza es el 2º momento sobre la media y un 2º momento sobre algún otro punto será mayor.
Para encontrar el óptimo podría diferenciar la integral y se pone igual a cero, entonces se obtiene
$$\frac{\partial}{\partial M} ∫dx p(x)(x−M)^2 =2 ∫dx p(x)(x−M) = 2(\mu-M) =0 $$
Lo que resulta en $M=\mu$ .
En palabras: si se desplaza el punto $M$ entonces las contribuciones de los $(x-M)^2$ término cambian y se vuelven menos o más, y esto es más cuando la distancia $x-M$ es mayor. Cuando $M$ es igual a la media $\mu$ el aumento y la disminución (la suma/media de $x-M$ ) se equilibran entre sí y se llega al mínimo.
Algo similar puede hacerse para minimizar la integral $∫dx p(x)|x−M|$ y se verá que esto se minimiza cuando $M$ es igual a la mediana.