Se trata de una afirmación habitual sobre la familia exponencial, pero, en mi opinión, la mayoría de las veces se enuncia de un modo que puede confundir al lector menos experimentado. Porque, tomada al pie de la letra, podría interpretarse como que "si nuestra variable aleatoria sigue una distribución de la familia exponencial, entonces si tomamos una muestra y la introducimos en el estadístico suficiente, obtendremos el verdadero valor esperado de la estadística ". Ojalá fuera así... Además, no tiene en cuenta el tamaño de la muestra, lo que puede causar más confusión.
La función de densidad exponencial es
$$f_X(x) = h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)} \tag{1}$$
donde $T(x)$ es la estadística suficiente.
Como se trata de una densidad, tiene que integrarse a la unidad, por lo que ( $S_x$ es el soporte de $X$ )
$$\int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =1 \tag{2}$$
Ec. $(2)$ es válido para $\theta$ por lo que podemos diferenciar ambos lados con respecto a ella:
$$\frac {\partial}{\partial \theta} \int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =\frac {\partial (1)}{\partial \theta} =0 \tag{3}$$
Intercambiando el orden de diferenciación e integración, obtenemos
$$\int_{S_x} \frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right)dx =0 \tag{4}$$
Realizando la diferenciación tenemos
$$\frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right) = f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big] \tag{5}$$
Insertar $(5)$ en $(4)$ obtenemos
$$\int_{S_x} f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big]dx =0 $$
$$\Rightarrow \eta'(\theta)E[T(X)] - A'(\theta) = 0 \Rightarrow E[T(X)] = \frac {A'(\theta)}{\eta'(\theta)} \tag{6}$$
Ahora preguntamos: el lado izquierdo de $(6)$ es un número real. Por lo tanto, el lado derecho también debe ser un número real, y no una función . Por lo tanto, debe evaluarse en un $\theta$ y debería ser el "verdadero" $\theta$ de lo contrario en el lado izquierdo no tendríamos el verdadero valor esperado de $T(X)$ . Para enfatizar esto denotamos el valor verdadero por $\theta_0$ y reescribimos $(6)$ como
$$E_{\theta_0}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\theta_0} \tag{6a}$$
Pasamos ahora a estimación de máxima verosimilitud . La log-verosimilitud para una muestra de tamaño $n$ es
$$L(\theta \mid \mathbf x) = \sum_{i=1}^n\ln h(x_i) +\eta(\theta)\sum_{i=1}^nT(x_i) -nA(\theta)$$
Fijando su derivada respecto a $\theta$ igual a $0$ obtenemos la MLE
$$\hat \theta(x) : \frac 1n\sum_{i=1}^nT(x_i) = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat \theta(x)} \tag {7}$$
Compara $(7)$ con $(6a)$ . Los lados derechos son no iguales, ya que no podemos argumentar que el estimador MLE haya dado con el valor verdadero. Por tanto, tampoco lo son los lados izquierdos. Pero recordemos que la ec. $2$ tiene para todos $ \theta$ y así para $\hat \theta$ también. Así que los pasos en eq. $3,4,5,6$ puede tomarse con respecto a $\hat \theta$ y así podemos escribir la ec. $6a$ para $\hat \theta$ :
$$E_{\hat\theta(x)}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat\theta(x)} \tag{6b}$$
que, combinado con $(7)$ nos lleva a la relación válida
$$ E_{\hat\theta(x)}[T(X)] = \frac 1n\sum_{i=1}^nT(x_i)$$
que es lo que realmente dice la afirmación examinada: el valor esperado del estadístico suficiente bajo el MLE para los parámetros desconocidos (es decir, el valor del primer momento bruto de la distribución que obtendremos si utilizamos $\hat \theta(x)$ en lugar de $\theta$ ), es igual a (y no sólo se aproxima por) el media de el estadístico suficiente calculado a partir de la muestra $\mathbf x$ .
Además, sólo si el tamaño de la muestra es $n=1$ entonces podríamos decir con exactitud, "el valor esperado del estadístico suficiente bajo el MLE es igual al estadístico suficiente".