Estoy estudiando en Casella-Berger, estoy en la página 322 en la que explica cómo encontrar Maximum Likelihood Estimator (MLE) para una distribución gaussiana con parámetros $\mu$ y $\sigma^2$, ambos desconocidos. Encuentra MLE, y hasta este punto todo está claro, y son $\hat{\mu} = \bar{x}$ y $\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2$.
Ahora, dice que es difícil probar analíticamente que estos son de hecho máximos globales, y usa este hecho:
Si $\theta \ne \bar{x}$ entonces $\sum (x_i-\theta)^2 > \sum (x_i-\bar{x})^2$.
No da ninguna explicación para eso. ¿Hay algo obvio que no veo?