20 votos

¿La matriz de información observada es un estimador coherente de la matriz de información esperada?

Intento demostrar que la matriz de información observada evaluada en el estimador de máxima verosimilitud débilmente consistente (MLE), es un estimador débilmente consistente de la matriz de información esperada. Este es un resultado ampliamente citado, pero nadie da una referencia o una prueba (¡he agotado creo que las primeras 20 páginas de resultados de google y mis libros de texto de estadística)!

Usando una secuencia débilmente consistente de MLEs puedo usar la ley débil de los grandes números (WLLN) y el teorema del mapeo continuo para obtener el resultado que quiero. Sin embargo, creo que el teorema del mapeo continuo no se puede utilizar. En su lugar, creo que hay que utilizar la ley uniforme de los grandes números (ULLN). ¿Alguien conoce alguna referencia que demuestre esto? Tengo un intento de la ULLN pero lo omito por ahora por brevedad.

Pido disculpas por la longitud de esta pregunta, pero hay que introducir la notación. La notación es la siguiente (mi prueba está al final).

Supongamos que tenemos una muestra iid de variables aleatorias $\{Y_1,\ldots,Y_N\}$ con densidades $f(\tilde{Y}|\theta)$ donde $\theta\in\Theta\subseteq\mathbb{R}^{k}$ (aquí $\tilde{Y}$ no es más que una variable aleatoria general con la misma densidad que cualquiera de los miembros de la muestra). El vector $Y=(Y_1,\ldots,Y_N)^{T}$ es el vector de todos los vectores de muestra donde $Y_{i}\in\mathbb{R}^{n}$ para todos $i=1,\ldots,N$ . El verdadero valor del parámetro de las densidades es $\theta_{0}$ y $\hat{\theta}_{N}(Y)$ es el estimador de máxima verosimilitud débilmente consistente (MLE) de $\theta_{0}$ . Sujeto a condiciones de regularidad, la matriz de información de Fisher puede escribirse como

$$I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right]$$

donde ${H}_{\theta}$ es la matriz hessiana. El equivalente muestral es

$$I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta),$$

donde $I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right]$ . La matriz de información observada es;

$J(\theta) = -H_\theta(\log f(y|\theta)$ ,

(algunas personas exigen que la matriz se evalúe en $\hat{\theta}$ pero otros no). La matriz de información observada de la muestra es;

$J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta)$

donde $J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta)$ .

Puedo demostrar la convergencia en probabilidad del estimador $N^{-1}J_N(\theta)$ a $I(\theta)$ pero no de $N^{-1}J_{N}(\hat{\theta}_N(Y))$ a $I(\theta_{0})$ . Aquí está mi prueba hasta ahora;

Ahora $(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs}$ es el elemento $(r,s)$ de $J_N(\theta)$ para cualquier $r,s=1,\ldots,k$ . Si la muestra es iid, entonces por la ley débil de los grandes números (WLLN), la media de estos sumandos converge en probabilidad a $-E_{\theta}[(H_\theta(\log f(Y_{1}|\theta))_{rs}]=(I_{Y_1}(\theta))_{rs}=(I(\theta))_{rs}$ . Así $N^{-1}(J_N(\theta))_{rs}\overset{P}{\rightarrow}(I(\theta))_{rs}$ para todos $r,s=1,\ldots,k$ y así $N^{-1}J_N(\theta)\overset{P}{\rightarrow}I(\theta)$ . Por desgracia, no podemos concluir simplemente $N^{-1}J_{N}(\hat{\theta}_N(Y))\overset{P}{\rightarrow}I(\theta_0)$ utilizando el teorema del mapeo continuo, ya que $N^{-1}J_{N}(\cdot)$ no es la misma función que $I(\cdot)$ .

Cualquier ayuda al respecto será muy apreciada.

11voto

Dougnukem Puntos 183

$\newcommand{\convp}{\stackrel{P}{\longrightarrow}}$

Supongo que establecer directamente algún tipo de ley uniforme de los grandes números es un posible enfoque.

Aquí hay otra.

Queremos demostrar que $\frac{J^N(\theta_{MLE})}{N} \convp I(\theta^*)$ .

(Como usted ha dicho, tenemos por la WLLN que $\frac{J^N(\theta)}{N} \convp I(\theta)$ . Pero esto no nos ayuda directamente).

Una posible estrategia consiste en demostrar que $$|I(\theta^*) - \frac{J^N(\theta^*)}{N}| \convp 0.$$

y

$$ |\frac{J^N(\theta_{MLE})}{N} - \frac{J^N(\theta^*)}{N}| \convp 0 $$

Si ambos resultados son ciertos, podemos combinarlos para obtener $$ |I(\theta^*) - \frac{J^N(\theta_{MLE})}{N}| \convp 0, $$

que es exactamente lo que queremos mostrar.

La primera ecuación se deduce de la ley débil de los grandes números.

El segundo casi se deduce del teorema del mapeo continuo, pero desafortunadamente nuestra función $g()$ que queremos aplicar el CMT a los cambios con $N$ : nuestra $g$ es realmente $g_N(\theta) := \frac{J^N(\theta)}{N}$ . Por lo tanto no podemos utilizar la CMT.

(Comentario: Si examina la prueba de la CMT en Wikipedia, observe que el conjunto $B_\delta$ definen en su prueba para nosotros ahora también depende de $n$ . Esencialmente necesitamos algún tipo de equicontinuidad en $\theta^*$ sobre nuestras funciones $g_N(\theta)$ .)

Afortunadamente, si se asume que la familia $\mathcal{G} = \{g_N | N=1,2,\ldots\}$ es estocásticamente equicontinuo en $\theta^*$ inmediatamente se deduce que para $\theta_{MLE} \convp \theta^*$ , \begin{align*} |g_n(\theta_{MLE}) - g_n(\theta^*)| \convp 0. \end{align*}

(Véase aquí: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf para una definición de equicontinuidad estocástica en $\theta^*$ y una prueba del hecho anterior).

Por lo tanto, suponiendo que $\mathcal{G}$ es SE en $\theta^*$ el resultado deseado es válido y la información de Fisher empírica converge a la información de Fisher de la población.

Ahora, la pregunta clave, por supuesto, es, ¿qué tipo de condiciones se necesitan imponer a $\mathcal{G}$ para conseguir SE? Parece que una forma de hacerlo es establecer una condición Lipshitz sobre toda la clase de funciones $\mathcal{G}$ (véase aquí: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic-equicontinuity.original.pdf ).

1voto

oxbow_lakes Puntos 70013

La respuesta anterior utilizando la equicontinuidad estocástica funciona muy bien, pero aquí estoy respondiendo a mi propia pregunta utilizando una ley uniforme de los grandes números para demostrar que la matriz de información observada es un estimador fuertemente consistente de la matriz de información es decir $N^{-1}J_{N}(\hat{\theta}_{N}(Y))\overset{a.s.}{\longrightarrow}I(\theta_{0})$ si introducimos una secuencia de estimadores fuertemente consistente. Espero que sea correcto en todos los detalles.

Utilizaremos $I_{N}=\{1,2,...,N\}$ sea un conjunto índice, y adoptemos temporalmente la notación $J(\tilde{Y},\theta):=J(\theta)$ para ser explícitos sobre la dependencia de $J(\theta)$ sobre el vector aleatorio $\tilde{Y}$ . También trabajaremos por elementos con $(J(\tilde{Y},\theta))_{rs}$ y $(J_{N}(\theta))_{rs}=\sum\nolimits_{i=1}^{N}(J(Y_{i},\theta))_{rs}$ , $r,s=1,...,k$ para este debate. La función $(J(\cdot,\theta))_{rs}$ es de valor real en el conjunto $\mathbb{R}^{n}\times\Theta^{\circ}$ y supondremos que es medible por Lebesgue para cada $\theta\in\Theta^{\circ}$ . Una ley uniforme (fuerte) de los grandes números define un conjunto de condiciones bajo las cuales

$\underset{\theta\in\Theta}{\text{sup}}\left|N^{-1}(J_{N}(\theta))_{rs}-E_{\theta}\left[(J(Y_{1},\theta))_{rs}\right]\right|=\nonumber\\ \hspace{60pt}\underset{\theta\in\Theta}{\text{sup}}\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\theta))_{rs}-(I(\theta))_{rs}\right|\overset{a.s}{\longrightarrow}0\hspace{100pt}(1)$

Las condiciones que deben cumplirse para que (1) se cumpla son (a) $\Theta^{\circ}$ es un conjunto compacto; (b) $(J(\tilde{Y},\theta))_{rs}$ es una función continua en $\Theta^{\circ}$ con probabilidad 1; (c) para cada $\theta\in \Theta^{\circ}$ $(J(\tilde{Y},\theta))_{rs}$ está dominada por una función $h(\tilde{Y})$ es decir $|(J(\tilde{Y},\theta))_{rs}|<h(\tilde{Y})$ y (d) para cada $\theta\in \Theta^{\circ}$ $E_{\theta}[h(\tilde{Y})]<\infty$ ;. Estas condiciones proceden de Jennrich (1969, Teorema 2).

Ahora, para cualquier $y_{i}\in\mathbb{R}^{n}$ , $i\in I_{N}$ y $\theta'\in S\subseteq\Theta^{\circ}$ es evidente que se cumple la siguiente desigualdad

$\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(y_{i},\theta'))_{rs}-(I(\theta'))_{rs}\right|\leq\underset{\theta\in S}{\text{sup}}\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(y_{i},\theta))_{rs}-(I(\theta))_{rs}\right|.\hspace{50pt}(2)$

Supongamos que $\{\hat{\theta}_{N}(Y)\}$ es una secuencia fuertemente consistente de estimadores para $\theta_{0}$ y que $\Theta_{N_{1}}=B_{\delta_{N_{1}}}(\theta_{0})\subseteq K\subseteq \Theta^{\circ}$ sea una bola abierta en $\mathbb{R}^{k}$ con radio $\delta_{N_{1}}\rightarrow 0$ como $N_{1}\rightarrow\infty$ y supongamos $K$ es compacto. Entonces, como $\hat{\theta}_{N}(Y)\in \Theta_{N_{1}}$ para $N$ suficientemente grande tenemos $P[\underset{N}{\text{lim}}\{\hat{\theta}_{N}(Y)\in\Theta_{N_{1}}\}]=1$ para un $N$ . Junto con (2) esto implica

$P\left[\underset{N\rightarrow\infty}{\text{lim}}\left\{\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\hat{\theta}_{N}(Y)))_{rs}-(I(\hat{\theta}_{N}(Y)))_{rs}\right|\leq\right.\right.\nonumber\\ \hspace{40pt}\left.\left.\underset{\theta\in\Theta_{N_{1}}}{\text{sup}}\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\theta))_{rs}-(I(\theta))_{rs}\right|\right\}\right]=1.\hspace{100pt}(3)$

Ahora $\Theta_{N_{1}}\subseteq\Theta^{\circ}$ implica que las condiciones (a)-(d) de Jennrich (1969, Teorema 2) se aplican a $\Theta_{N_{1}}$ . Por lo tanto (1) y (3) implican

$P\left[\underset{N\rightarrow\infty}{\text{lim}}\left\{\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\hat{\theta}_{N}(Y)))_{rs}-(I(\hat{\theta}_{N}(Y)))_{rs}\right|=0\right\}\right]=1.\hspace{100pt}(4)$

Desde $(I(\hat{\theta}_{N}(Y)))_{rs}\overset{a.s.}{\longrightarrow}I(\theta_{0})$ entonces (4) implica que $N^{-1}(J_{N}(\hat{\theta}_{N}(Y)))_{rs}\overset{a.s.}{\longrightarrow}(I(\theta_{0}))_{rs}$ . Obsérvese que (3) se cumple por pequeño que sea $\Theta_{N_{1}}$ por lo que el resultado de (4) es independiente de la elección de $N_{1}$ que no sean $N_{1}$ debe elegirse de forma que $\Theta_{N_{1}}\subseteq \Theta^{\circ}$ . Este resultado es válido para todos los $r,s=1,...,k$ por lo que en términos de matrices tenemos $N^{-1}J_{N}(\hat{\theta}_{N}(Y))\overset{a.s.}{\longrightarrow}I(\theta_{0})$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X