Una forma sencilla e intuitiva de entender por qué $\hat \theta$ no es suficiente es observar que en una muestra iid $(x_1, \ldots, x_n)$ extraído de una distribución Bernoulli, toda la información sobre $\theta$ debe estar contenida en el número de observaciones que se $1$ -porque el orden de las observaciones no es relevante cuando se trata de la información sobre $\theta$ .
Por ejemplo, a grandes rasgos, la muestra $(1,0,1)$ para $n = 3$ contiene la cantidad equivalente de información sobre $\theta$ como la muestra $(1,1,0)$ porque ambos contienen el mismo número de $1$ s. Pero si este es el caso, entonces si podemos encontrar un valor de $\hat \theta$ que es generado por dos muestras para las cuales el número de $1$ es no lo mismo, entonces $\hat \theta$ no puede ser suficiente, ya que dado ese valor, no se podría saber cuántos $1$ s estaban presentes en la muestra.
La forma de $\hat \theta$ sugiere un ejemplo de este tipo; ambos $(0,1,0)$ y $(1,0,1)$ tienen $\hat \theta = 1/2$ . Así que si te digo que he generado una muestra y calculado $\hat \theta = 1/2$ No podría decirme si mi muestra tenía una $1$ o dos $1$ s, y como estas muestras contienen información diferente sobre $\theta$ --así que en ese sentido, la información sobre $\theta$ se ha perdido.
Ahora que hemos visto el razonamiento intuitivo, estamos mejor preparados para la demostración formal. Para $n = 3$ la distribución conjunta es $$\Pr[(X_1, X_2, X_3) = (x_1, x_2, x_3) \mid \theta] = \prod_{i=1}^3 \Pr[X_i = x_i \mid \theta] = \prod_{i=1}^3 \theta^{x_i} (1 - \theta)^{1 - x_i} \mathbb 1(x_i \in \{0,1\}).$$ Esto se simplifica a $$\theta^{x_1 + x_2 + x_3}(1-\theta)^{3-(x_1 + x_2 + x_3)} \mathbb 1 (x_1 \in \{0,1\})\mathbb 1 (x_2 \in \{0,1\})\mathbb 1 (x_3 \in \{0,1\}).$$ Así que por el teorema de la factorización, $$h(\boldsymbol x) = \mathbb 1 (x_1 \in \{0,1\})\mathbb 1 (x_2 \in \{0,1\})\mathbb 1 (x_3 \in \{0,1\}), \\ g(T(\boldsymbol x) \mid \theta) = \theta^T (1 - \theta)^{3-T}, \\ T(\boldsymbol x) = T(x_1, x_2, x_3) = x_1 + x_2 + x_3.$$ Esto formaliza nuestra afirmación anterior de que el número de $1$ s en la muestra es una estadística suficiente.
Entonces, para ver cómo $\hat \theta$ no es suficiente, basta con demostrar que es posible que dos muestras distintas $\boldsymbol x$ , $\boldsymbol x^*$ para satisfacer $$T(\boldsymbol x) \ne T(\boldsymbol x^*), \quad \hat\theta(\boldsymbol x) = \hat\theta(\boldsymbol x^*).$$ Entonces $\hat \theta$ no puede ser suficiente, ya que dada la cantidad $\hat \theta(\boldsymbol x)$ no se puede saber si fue generado por $\boldsymbol x$ o $\boldsymbol x^*$ Sin embargo, el valor de la estadística suficiente $T$ no es la misma para estas dos posibilidades, lo que significa que la información sobre $\theta$ se perdió con $\hat \theta$ .