5 votos

¿Por qué es que cuando la varianza de la puntuación más grande conseguir más confianza en la estimación de la EAM?

Estoy siguiendo Kashin la revisión de la EML

Supongamos que tenemos una simple distribución de Bernoulli y sabemos que su verdadero parámetro de $p_0$. El Fisher expected information $I(p_0)$ es igual a la varianza de la puntuación esperada, cuando se evalúa a $p_0$.

Es también conocido que el MLE estimación $p_{mle}$ converge a $p_0$ como $N(p_0, I(p_0)^{-1})$. Así como MAYOR la información que obtiene, la varianza de la puntuación que se obtiene más GRANDE, pero nuestra confianza en el MLE se pone mejor! Esto no tiene sentido para mí de forma intuitiva:

En la de abajo los gráficos el eje X los valores de $p$, y tanto la log-verosimilitud $L$ y el puntaje $S$ se trazan para 2 muestras. En el gráfico de la izquierda tienen una mayor observado fisher información que en el derecho, por lo que sus curvaturas son más pronunciada y, de hecho, la puntuación cuando se evalúa a $p_0$ tiene una mayor varianza (en verde).

Así que ¿por qué es que estamos más seguros de que la Emv en el gráfico de la izquierda van a converger hacia la $p_0$? Podemos ver que su puntuación de variación en $p_0$ es mayor, lo que significa que están más lejos de la puntuación esperada $E(S(p_0)) = 0$.

Kashin tiene una prueba formal, nadie puede establecer una explicación intuitiva de este contra-intuitivo (al menos para mí) fenómeno?

NOTA: me doy cuenta de que la curvatura de la likelhoods de la izquierda es más pronunciado que los de la derecha, y entiendo que la intuición detrás de esta interpretación de la información - es la otra interpretación de la información - la puntuación de la varianza cuando se evaluó en el verdadero parámetro - lo que quiero entender.

Gracias!

mle

2voto

Adrien Renaud Puntos 126

No estoy seguro de lo que es realmente desconcertante. La puntuación indica cómo sensiblemente la probabilidad de la función depende de su parámetro. Así crece (y así lo hace la varianza) con la cantidad de información que la probabilidad lleva sobre el parámetro. Por el otro, la máxima probabilidad de obtener una mejor estimación de la cantidad de información crece. Parece lo suficientemente intuitiva como para mí...

He hecho algunos de matemáticas para aclarar las cosas. También puede echar un vistazo a mi notebook donde he comprobado que las matemáticas están trabajando por la generación de algunas muestras de Bernoulli.

Matemáticas

Deje $X_1 ,...,X_T$ ser un iid muestra con $X_i \sim Bernoulli(\theta_0)$ $\theta_0$ siendo el verdadero parámetro.

La articulación de la densidad/función de probabilidad está dada por: $$f( x ; \theta )= L ( \theta | x )= \prod_{i=1}^{T}{\theta^{x_i}(1-\theta)^{1-x_i}}=\theta^{\sum x_i}(1-\theta)^{n-\sum x_i}$$

La puntuación de la función está dada por: $$ S(\theta | x)=\frac{\partial \ln L(\theta|x)}{\partial \theta}= \frac{1}{\theta}\sum x_i - \frac{1}{1-\theta}(T - \sum x_i) $$

El MLE de $\theta_0$ es: $$\hat{\theta}=\frac{1}{T}\sum_{i=1}^{T}x_i $$

Y la muestra de Fisher Información es: $$ I(\theta | x) = -\mathbf{E}[\frac{\partial^2 \ln L(\theta|x)}{\partial \theta^2}]$$

Evaluados en $\theta_0$: $$ I(\theta_0 | x) = T(\frac{1}{\theta_0} + \frac{1}{1-\theta_0}) $$

Entonces: $$\frac{1}{\sqrt{T}}S(\theta_0|x) \xrightarrow{D} \mathcal{N}(0, \frac{I(\theta_0)}{T}) $$

y: $$\sqrt{T}(\hat{\theta}-\theta_0) \xrightarrow{D} \mathcal{N}(0, \{\frac{I(\theta_0)}{T}\}^{-1}) $$

Conclusión

  • Situación 1.

$ I(\theta_0 | x) = -\mathbf{E}[\frac{\partial^2 \ln L(\theta|x)}{\partial \theta^2}\big|_{\theta_0}] $ es grande (por lo tanto, la varianza de la mle será pequeño), entonces significa que el gradiente de $\frac{\partial \ln L(\theta|x)}{\partial \theta}$ es empinada. Por lo tanto, incluso para pequeñas desviaciones de $\theta_0$ ,$\frac{\partial \ln L(\theta|x)}{\partial \theta}$ es probable que lejos de cero. Esto significa que el mle $\hat{\theta}$ es probable que en un barrio de $\theta_0$.

  • Situación 2.

$ I(\theta_0 | x) = -\mathbf{E}[\frac{\partial^2 \ln L(\theta|x)}{\partial \theta^2}\big|_{\theta_0}] $ es pequeña (por lo tanto, la varianza de la mle será grande). En este caso, el gradiente de la probabilidad de $\frac{\partial \ln L(\theta|x)}{\partial \theta}$ es plano y por lo tanto $\frac{\partial \ln L(\theta|x)}{\partial \theta}\approx 0$ para un gran barrio sobre el verdadero parámetro de $\theta_0$. Por lo tanto, el mle $\hat{\theta}$ puede estar en un gran barrio de $\theta_0$.

Fuentes

http://faculty.washington.edu/ezivot/econ583/mleLectures.pdf

https://www.stat.tamu.edu/~suhasini/teaching613/STAT613.pdf

1voto

Christoph Hanck Puntos 4143

Mi intuición sería como sigue: $n\to\infty$, $p_{mle}\to_p p_0$ por la consistencia de la MLE, por lo que la log-verosimilitud va a estar centrada en el valor verdadero.

Ahora bien, si tenemos más curvatura, lo que significa que la log-verosimilitud se inclina lejos de la verdad el valor más rápidamente, lo que significa que otro candidato valores de $p$ para el verdadero valor de $p_0$ son asignados mucho menos probabilidad de que el MLE, lo que significa que somos mucho más seguro para preferir el MLE sobre otros valores de $p$.

Por el contrario, si el logaritmo de la probabilidad es relativamente plana, como en el derecho, todavía tenemos que, por construcción, el MLE es en el pico de la log-verosimilitud, sino otros valores reciben aproximadamente la misma probabilidad, por lo que no estábamos muy seguros de preferir el MLE sobre las demás.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X