10 votos

Familia exponencial: Estadística suficiente observada frente a esperada

Mi pregunta surge de la lectura "Estimación de una distribución Dirichlet" de Minka que afirma lo siguiente sin pruebas en el contexto de la derivación de un estimador de máxima verosimilitud para una distribución Dirichlet basada en observaciones de vectores aleatorios:

Como siempre con la familia exponencial, cuando el gradiente es cero, la estadística suficiente esperada es igual a la estadística suficiente observada.

No he visto la estimación de máxima verosimilitud en la familia exponencial presentada de esta manera, ni he encontrado explicaciones adecuadas en mi búsqueda. Puede alguien ofrecer una visión de la relación entre los estadísticos suficientes observados y esperados, y tal vez ayudar a entender la estimación de máxima verosimilitud como la minimización de su diferencia?

13voto

Jeff Bauer Puntos 236

Se trata de una afirmación habitual sobre la familia exponencial, pero, en mi opinión, la mayoría de las veces se enuncia de un modo que puede confundir al lector menos experimentado. Porque, tomada al pie de la letra, podría interpretarse como que "si nuestra variable aleatoria sigue una distribución de la familia exponencial, entonces si tomamos una muestra y la introducimos en el estadístico suficiente, obtendremos el verdadero valor esperado de la estadística ". Ojalá fuera así... Además, no tiene en cuenta el tamaño de la muestra, lo que puede causar más confusión.

La función de densidad exponencial es

$$f_X(x) = h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)} \tag{1}$$

donde $T(x)$ es la estadística suficiente.

Como se trata de una densidad, tiene que integrarse a la unidad, por lo que ( $S_x$ es el soporte de $X$ )

$$\int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =1 \tag{2}$$

Ec. $(2)$ es válido para $\theta$ por lo que podemos diferenciar ambos lados con respecto a ella:

$$\frac {\partial}{\partial \theta} \int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =\frac {\partial (1)}{\partial \theta} =0 \tag{3}$$

Intercambiando el orden de diferenciación e integración, obtenemos

$$\int_{S_x} \frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right)dx =0 \tag{4}$$

Realizando la diferenciación tenemos

$$\frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right) = f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big] \tag{5}$$

Insertar $(5)$ en $(4)$ obtenemos

$$\int_{S_x} f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big]dx =0 $$

$$\Rightarrow \eta'(\theta)E[T(X)] - A'(\theta) = 0 \Rightarrow E[T(X)] = \frac {A'(\theta)}{\eta'(\theta)} \tag{6}$$

Ahora preguntamos: el lado izquierdo de $(6)$ es un número real. Por lo tanto, el lado derecho también debe ser un número real, y no una función . Por lo tanto, debe evaluarse en un $\theta$ y debería ser el "verdadero" $\theta$ de lo contrario en el lado izquierdo no tendríamos el verdadero valor esperado de $T(X)$ . Para enfatizar esto denotamos el valor verdadero por $\theta_0$ y reescribimos $(6)$ como

$$E_{\theta_0}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\theta_0} \tag{6a}$$

Pasamos ahora a estimación de máxima verosimilitud . La log-verosimilitud para una muestra de tamaño $n$ es

$$L(\theta \mid \mathbf x) = \sum_{i=1}^n\ln h(x_i) +\eta(\theta)\sum_{i=1}^nT(x_i) -nA(\theta)$$

Fijando su derivada respecto a $\theta$ igual a $0$ obtenemos la MLE

$$\hat \theta(x) : \frac 1n\sum_{i=1}^nT(x_i) = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat \theta(x)} \tag {7}$$

Compara $(7)$ con $(6a)$ . Los lados derechos son no iguales, ya que no podemos argumentar que el estimador MLE haya dado con el valor verdadero. Por tanto, tampoco lo son los lados izquierdos. Pero recordemos que la ec. $2$ tiene para todos $ \theta$ y así para $\hat \theta$ también. Así que los pasos en eq. $3,4,5,6$ puede tomarse con respecto a $\hat \theta$ y así podemos escribir la ec. $6a$ para $\hat \theta$ :

$$E_{\hat\theta(x)}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat\theta(x)} \tag{6b}$$

que, combinado con $(7)$ nos lleva a la relación válida

$$ E_{\hat\theta(x)}[T(X)] = \frac 1n\sum_{i=1}^nT(x_i)$$

que es lo que realmente dice la afirmación examinada: el valor esperado del estadístico suficiente bajo el MLE para los parámetros desconocidos (es decir, el valor del primer momento bruto de la distribución que obtendremos si utilizamos $\hat \theta(x)$ en lugar de $\theta$ ), es igual a (y no sólo se aproxima por) el media de el estadístico suficiente calculado a partir de la muestra $\mathbf x$ .

Además, sólo si el tamaño de la muestra es $n=1$ entonces podríamos decir con exactitud, "el valor esperado del estadístico suficiente bajo el MLE es igual al estadístico suficiente".

0 votos

¿Podría explicar con más detalle por qué es válida la transición de 6a a 6b?

1 votos

@Theoden Entre eq. $(2)$ y $(3)$ Escribo "eq. $(2)$ tiene para todos $\theta$ "y, por tanto, para $\hat \theta$ también. Así que todos los pasos en eq. $3,4,5,6$ puede tomarse con respecto a $\hat \theta$ . He repetido esta observación en el texto para mayor claridad.

0 votos

@AlecosPapadopoulos tu prueba de abajo parece sugerir que lo que dices al principio - "si nuestra variable aleatoria sigue una distribución de la familia exponencial, entonces si tomamos una muestra y la insertamos en el estadístico suficiente, obtendremos el verdadero valor esperado del estadístico" es cierto. Quiero decir que siempre puedo hacer eso para (2), sustituyéndolo por el estadístico suficiente observado y obtener el resultado. ¿Qué me falta aquí? No lo entiendo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X