Intento demostrar que la matriz de información observada evaluada en el estimador de máxima verosimilitud débilmente consistente (MLE), es un estimador débilmente consistente de la matriz de información esperada. Este es un resultado ampliamente citado, pero nadie da una referencia o una prueba (¡he agotado creo que las primeras 20 páginas de resultados de google y mis libros de texto de estadística)!
Usando una secuencia débilmente consistente de MLEs puedo usar la ley débil de los grandes números (WLLN) y el teorema del mapeo continuo para obtener el resultado que quiero. Sin embargo, creo que el teorema del mapeo continuo no se puede utilizar. En su lugar, creo que hay que utilizar la ley uniforme de los grandes números (ULLN). ¿Alguien conoce alguna referencia que demuestre esto? Tengo un intento de la ULLN pero lo omito por ahora por brevedad.
Pido disculpas por la longitud de esta pregunta, pero hay que introducir la notación. La notación es la siguiente (mi prueba está al final).
Supongamos que tenemos una muestra iid de variables aleatorias $\{Y_1,\ldots,Y_N\}$ con densidades $f(\tilde{Y}|\theta)$ donde $\theta\in\Theta\subseteq\mathbb{R}^{k}$ (aquí $\tilde{Y}$ no es más que una variable aleatoria general con la misma densidad que cualquiera de los miembros de la muestra). El vector $Y=(Y_1,\ldots,Y_N)^{T}$ es el vector de todos los vectores de muestra donde $Y_{i}\in\mathbb{R}^{n}$ para todos $i=1,\ldots,N$ . El verdadero valor del parámetro de las densidades es $\theta_{0}$ y $\hat{\theta}_{N}(Y)$ es el estimador de máxima verosimilitud débilmente consistente (MLE) de $\theta_{0}$ . Sujeto a condiciones de regularidad, la matriz de información de Fisher puede escribirse como
$$I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right]$$
donde ${H}_{\theta}$ es la matriz hessiana. El equivalente muestral es
$$I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta),$$
donde $I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right]$ . La matriz de información observada es;
$J(\theta) = -H_\theta(\log f(y|\theta)$ ,
(algunas personas exigen que la matriz se evalúe en $\hat{\theta}$ pero otros no). La matriz de información observada de la muestra es;
$J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta)$
donde $J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta)$ .
Puedo demostrar la convergencia en probabilidad del estimador $N^{-1}J_N(\theta)$ a $I(\theta)$ pero no de $N^{-1}J_{N}(\hat{\theta}_N(Y))$ a $I(\theta_{0})$ . Aquí está mi prueba hasta ahora;
Ahora $(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs}$ es el elemento $(r,s)$ de $J_N(\theta)$ para cualquier $r,s=1,\ldots,k$ . Si la muestra es iid, entonces por la ley débil de los grandes números (WLLN), la media de estos sumandos converge en probabilidad a $-E_{\theta}[(H_\theta(\log f(Y_{1}|\theta))_{rs}]=(I_{Y_1}(\theta))_{rs}=(I(\theta))_{rs}$ . Así $N^{-1}(J_N(\theta))_{rs}\overset{P}{\rightarrow}(I(\theta))_{rs}$ para todos $r,s=1,\ldots,k$ y así $N^{-1}J_N(\theta)\overset{P}{\rightarrow}I(\theta)$ . Por desgracia, no podemos concluir simplemente $N^{-1}J_{N}(\hat{\theta}_N(Y))\overset{P}{\rightarrow}I(\theta_0)$ utilizando el teorema del mapeo continuo, ya que $N^{-1}J_{N}(\cdot)$ no es la misma función que $I(\cdot)$ .
Cualquier ayuda al respecto será muy apreciada.