92 votos

Pregunta básica sobre la matriz de información de Fisher y su relación con el hessiano y los errores estándar

Ok, esta es una pregunta bastante básica, pero estoy un poco confundido. En mi tesis escribo:

Los errores estándar se pueden encontrar calculando la inversa de la raíz cuadrada de los elementos diagonales de la matriz de información de Fisher (observada):

\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Como el comando de optimización en R minimiza $-\log\mathcal{L}$ la matriz de información de Fisher (observada) se puede encontrar calculando la inversa del hessiano: \begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*}

Mi pregunta principal: ¿Es correcto lo que digo? ?

Estoy un poco confundido, porque en este fuente en la página 7 dice:

la matriz de información es el negativo del valor esperado de la matriz hessiana

(Así que no hay inversa del hessiano).

Mientras que en este fuente en la página 7 (nota 5) dice:

La información observada de Fisher es igual a $(-H)^{-1}$ .

(Así que aquí está la inversa).

Soy consciente del signo menos y de cuándo usarlo y cuándo no, pero ¿por qué hay diferencia en tomar la inversa o no?

110voto

mehturt Puntos 13

Yudi Pawitan escribe en su libro Con toda probabilidad que la segunda derivada de la log-verosimilitud evaluada en las estimaciones de máxima verosimilitud (MLE) es la información observada de Fisher (véase también este documento , página 1). Esto es exactamente lo que la mayoría de los algoritmos de optimización como optim en R retorno: el hessiano evaluado en el MLE. Cuando el negativo La probabilidad logarítmica se minimiza, se devuelve el hessiano negativo. Como usted señala correctamente, los errores estándar estimados de la MLE son las raíces cuadradas de los elementos diagonales de la inversa de la matriz de información de Fisher observada. En otras palabras: Las raíces cuadradas de los elementos diagonales de la inversa del hessiano (o el hessiano negativo) son los errores estándar estimados.

Resumen

  • El hessiano negativo evaluado en el MLE es el mismo que la matriz de información de Fisher observada evaluada en el MLE.
  • En cuanto a su pregunta principal: No, no es correcto que el información observada de Fisher se puede encontrar invirtiendo la Hessiano.
  • En cuanto a su segunda pregunta: La inversa del hessiano (negativo) es un estimador de la matriz de covarianza asintótica. Por lo tanto, las raíces cuadradas de los elementos diagonales de la matriz de covarianza son estimadores de los errores estándar.
  • Creo que el segundo documento que enlazas se equivoca.

Formalmente

Dejemos que $l(\theta)$ sea una función de probabilidad logarítmica. El Matriz de información de Fisher $\mathbf{I}(\theta)$ es una simetría $(p\times p)$ matriz que contiene las entradas: $$ \mathbf{I}(\theta)=-\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~ 1\leq i, j\leq p $$ El matriz de información de Fisher observada es simplemente $\mathbf{I}(\hat{\theta}_{\mathrm{ML}})$ la matriz de información evaluada en las estimaciones de máxima verosimilitud (MLE). El hessiano se define como $$ \mathbf{H}(\theta)=\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~ 1\leq i, j\leq p $$ No es otra cosa que la matriz de segundas derivadas de la función de verosimilitud con respecto a los parámetros. Se deduce que si se minimiza la negativo log-verosimilitud, el hessiano devuelto es el equivalente a la matriz de información de Fisher observada, mientras que en el caso de que se maximice la log-verosimilitud, entonces el negativo El hessiano es la matriz de información observada.

Además, la inversa de la matriz de información de Fisher es un estimador de la matriz de covarianza asintótica: $$ \mathrm{Var}(\hat{\theta}_{\mathrm{ML}})=[\mathbf{I}(\hat{\theta}_{\mathrm{ML}})]^{-1} $$ Los errores estándar son entonces las raíces cuadradas de los elementos diagonales de la matriz de covarianza. Para la distribución asintótica de una estimación de máxima verosimilitud, podemos escribir $$ \hat{\theta}_{\mathrm{ML}}\stackrel{a}{\sim}\mathcal{N}\left(\theta_{0}, [\mathbf{I}(\hat{\theta}_{\mathrm{ML}})]^{-1}\right) $$ donde $\theta_{0}$ denota el verdadero valor del parámetro. Por lo tanto, el error estándar estimado de las estimaciones de máxima verosimilitud viene dado por: $$ \mathrm{SE}(\hat{\theta}_{\mathrm{ML}})=\frac{1}{\sqrt{\mathbf{I}(\hat{\theta}_{\mathrm{ML}})}} $$

6voto

pmarflee Puntos 2788

La estimación de las funciones de verosimilitud implica un proceso de dos pasos.

En primer lugar, se declara la función de probabilidad logarítmica. Luego se optimizan las funciones de log-verosimilitud. Eso está bien.

Escribiendo las funciones de log-verosimilitud en R, pedimos $-1*l$ (donde $l$ representa la función log - likelihood) porque el comando optim en R minimiza una función por defecto. La minimización de -l es lo mismo que la maximización de l, que es lo que queremos.

Ahora, la matriz de información de Fisher observada es igual a $(-H)^{-1}$ . La razón por la que no tenemos que multiplicar el hessiano por -1 es que la evaluación se ha hecho en términos de -1 veces la log-verosimilitud. Esto significa que el hessiano producido por optim ya está multiplicado por -1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X