Una rápida:
Esto se deduce de una propiedad de los momentos ( una regla para transformar el centro )
E\left[(x-\hat{x})^n\right] = \sum_{i=0}^n {n \choose i} E\left[(x-a)^i\right] (a-\hat{x})^{n-i}
que se convierte en para n=2 y a=\mu=E[X]
E \left[(x-\hat{x})^2\right] = \underbrace{E \left[(x-\mu)^2\right] }_{=\text{Var}(x)} + 2 \underbrace{E \left[(x-\mu)\right] }_{=0} (\mu-\hat{x}) + (\mu-\hat{x})^2 = \text{Var}(x) + (\mu-\hat{x})^2
y esto se minimiza cuando \hat{x}=\mu .
Una más larga:
Va similar usando la expresión ∫dx p(x)(x−M)^2
\begin{array}{} ∫dx p(x)(x−M)^2 &=& ∫dx p(x)\underbrace{((x-\mu)+(\mu-M))^2}_{=(x-\mu)^2 + 2(x-\mu)(\mu-M) + (\mu-M)^2} \\ & =& ∫dx p(x)(x-\mu)^2 + ∫dx p(x)2(x-\mu)(\mu-M) +∫dx p(x) (\mu-M)^2 \\ & =& ∫dx p(x)(x-\mu)^2 + ∫dx p(x)2 x(\mu-M) - ∫dx p(x)2\mu(\mu-M)+∫dx p(x) (\mu-M)^2 \\ & =& \underbrace{∫dx p(x)(x-\mu)^2}_{=\text{var}(x)} + 2 (\mu-M)\underbrace{∫dx p(x)x}_{=\mu} - 2 (\mu-M)\mu \underbrace{∫dx p(x)}_{=1}+(\mu-M)^2 \underbrace{∫dx p(x)}_{=1} \\ &=& \text{var}(x) +(\mu-M)^2 \end{array}
Intuitivamente:
En otras palabras, la varianza es el 2º momento sobre la media y un 2º momento sobre algún otro punto será mayor.
Para encontrar el óptimo podría diferenciar la integral y se pone igual a cero, entonces se obtiene
\frac{\partial}{\partial M} ∫dx p(x)(x−M)^2 =2 ∫dx p(x)(x−M) = 2(\mu-M) =0
Lo que resulta en M=\mu .
En palabras: si se desplaza el punto M entonces las contribuciones de los (x-M)^2 término cambian y se vuelven menos o más, y esto es más cuando la distancia x-M es mayor. Cuando M es igual a la media \mu el aumento y la disminución (la suma/media de x-M ) se equilibran entre sí y se llega al mínimo.
Algo similar puede hacerse para minimizar la integral ∫dx p(x)|x−M| y se verá que esto se minimiza cuando M es igual a la mediana.