En relación con la ecuación final del ejemplo en la respuesta aceptada (+1):
La independencia del parámetro de la población $\theta$ de la función de masa de probabilidad condicional del vector aleatorio $\mathrm X = \left(\mathrm X_1,\mathrm X_2, \dots,\mathrm X_n \right),$ correspondiente a $n$ muestras iid, respecto a una estadística $T(\mathrm X)$ de este vector aleatorio se puede entender a través de la partición del espacio muestral por la estadística. La intuición aquí sería de diagramas de Venn que separan de manera única aquellas muestras de tamaño $n$ que suman el mismo valor, o el conjunto de particiones de $n \bar{ \mathrm x}=\sum_{i=1}^n \mathrm x,$ que se pueden pensar como $[x_{n \bar{\mathrm x}}]\left(x^0+x^1+x^2+\cdots\right)^n,$ por ejemplo en el caso de la distribución de Poisson, que tiene soporte $\mathbb N\cup\{0\},$ la media de muestras de $n=10$ dividiría el espacio muestral (diagramáticamente) de la siguiente manera:
Esto explica por qué, considerando $\mathrm X$ como un subconjunto de $T(\mathrm X),$
$$\Pr\left(\mathrm X=\mathrm x \cap T(\mathrm X)=T(\mathrm x)\right)=\Pr\left(\mathrm X=\mathrm x\right)$$
permitiendo la siguiente "prueba" para una estadística suficiente:
$$\begin{align} \Pr\left(\mathrm X=\mathrm x \vert T(\mathrm X)=T(\mathrm x)\right)&=\frac{\Pr\left(\mathrm X=\mathrm x \cap T(\mathrm X)=T(\mathrm x)\right)}{\Pr\left(T(\mathrm X)=T(\mathrm x) \right)}\\[2ex] &=\frac{\Pr\left(\mathrm X=\mathrm x \right)}{\Pr\left(T(\mathrm X)=T(\mathrm x) \right)} \end{align} $$
es decir, si para todos los valores de $\theta$, la proporción de la probabilidad de la muestra sobre la probabilidad de la estadística es constante, la estadística de prueba es suficiente: $\Pr\left(\mathrm X=\mathrm x \vert T(\mathrm X)=T(\mathrm x)\right)$ no depende de $\theta.
Pasando al ejemplo de la respuesta aceptada (2 extracciones de una distribución normal $N(\mu,\sigma)$, $\mathrm X =(\mathrm X_1, \mathrm X_2),$ que representan la muestra completa, $(\mathrm X_1, \mathrm X_2, \cdots, \mathrm X_n)$ en el caso más general, y pasando de las distribuciones de probabilidad discreta (como se ha asumido hasta este punto) a distribuciones continuas (de PMF a PDF), la pdf conjunta de gaussianas independientes (iid) con varianza igual es:
$$\begin{align} f_\mathrm X\left(\mathrm X =\mathrm x\vert\mu\right)&=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left({\frac{-(x_i-\mu)^2}{2\sigma^2}}\right)\\[2ex] &=\frac{1}{(2\pi\sigma^2)^{(n/2)}}\exp\left({\frac{-\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}}\right)\\[2ex] &=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left({\frac{-\sum_{i=1}^n(x_i-\bar x + \bar x -\mu)^2}{2\sigma^2}}\right)\\[2ex] &=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left({\frac{-\left(\sum_{i=1}^n(x_i-\bar x)^2 + n(\bar x -\mu)^2\right)}{2\sigma^2}}\right)\\[2ex] \end{align}$$
La relación de las pdf (el denominador corresponde a la pdf de la distribución de muestreo de la media de la muestra para la normal, es decir, $N(\mu,\sigma^2/n),$ resulta en
$$\begin{align} \frac{f_\mathrm X(\mathrm X =\mathrm x\vert \mu)}{q_{T(\mathrm X)}(T\left(\mathrm X=T(\mathrm x)\right)\vert \mu)}&=\frac{\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left({\frac{-\left(\sum_{i=1}^n(x_i-\bar x)^2 + n(\bar x -\mu)^2\right)}{2\sigma^2}}\right)} {\frac{1}{\left(2\pi\frac{\sigma^2}{n}\right)^{1/2}}\exp\left({\frac{-n(\bar x-\mu)^2}{2\sigma^2}}\right)}\\[2ex] &\propto \exp{\left(\frac{-\left(\sum_{i=1}^n(x_i-\bar x)^2\right) }{2\sigma^2} \right)} \end{align}$$
eliminando la dependencia de un $\mu$ específico.
Todo esto está explicado de manera excelente en Inferencia Estadística de George Casella y Roger L. Berger.
Consecuentemente, la media de la muestra es una estadística suficiente.
En contraste, el valor máximo de la muestra, que es una estadística suficiente de una uniforme $[0,\theta]$ con $\theta$ desconocido, no sería suficiente para estimar la media de muestras gaussianas. El histograma del valor máximo de muestras de 10 de la uniforme $[0,3]$ muestra cómo se aproxima el parámetro $\theta$, permitiendo que el resto de la información de la muestra se descarte:
El máximo sería simplemente un ejemplo extremo de la variable aleatoria única en el vector de muestra publicado como un contraejemplo a una estadística suficiente en la respuesta aprobada.
En este caso, la pdf de la estadística se vuelve engorrosa, involucrando la función error:
$$\frac{1}{2}+\frac{1}{2}\text{erf}\left(\frac{x-\mu}{\sigma\sqrt 2}\right)$$
lo cual (entre otras diferencias entre el numerador y el denominador de las relaciones de pdf) impide deshacerse de $\mu$.
De manera intuitiva, saber el valor máximo de cada muestra no resume toda la información sobre la media de la población, $\mu,$ disponible en la muestra. Esto se ve claramente visualizando la distribución de muestreo de las medias de $10^6$ simulaciones de $n=10$ muestras $N(0,1)$ (a la izquierda) versus la distribución de muestreo de los valores máximos (a la derecha):
Esta última elimina información disponible dentro de la muestra completa necesaria para estimar la media de la población; también es sesgada.