7 votos

Expansión en serie de Taylor del estimador de máxima verosimilitud, Newton-Raphson, puntuación de Fisher y distribución del MLE por el método Delta

Supongamos que $\ell\left(\theta\right)$ es la log-verosimilitud del vector de parámetros $\theta$ y $\widehat{\theta}$ es el estimador de máxima verosimilitud de $\theta$ entonces la serie de Taylor de $\ell\left(\theta\right)$ sobre $\widehat{\theta}$ es \begin{align*} \ell\left(\theta\right) & \approxeq\ell\left(\widehat{\theta}\right)+\frac{\partial\ell\left(\theta\right)}{\partial\theta}\Bigr|_{\theta=\widehat{\theta}}\left(\theta-\widehat{\theta}\right)+\frac{1}{2}\left(\theta-\widehat{\theta}\right)^{\prime}\frac{\partial^{2}\ell\left(\theta\right)}{\partial\theta\partial\theta^{\prime}}\Bigr|_{\theta=\widehat{\theta}}\left(\theta-\widehat{\theta}\right)\\ \frac{\ell\left(\theta\right)}{\partial\theta} & \approxeq\mathbf{0}+\left(\mathbf{1}-\mathbf{0}\right)\frac{\partial\ell\left(\theta\right)}{\partial\theta}\Bigr|_{\theta=\widehat{\theta}}+\frac{\partial^{2}\ell\left(\theta\right)}{\partial\theta\partial\theta^{\prime}}\Bigr|_{\theta=\widehat{\theta}}\left(\theta-\widehat{\theta}\right)\quad\overset{\textrm{set}}{=}\quad\mathbf{0}\\ \\ \theta-\widehat{\theta} & =-\left[\frac{\partial^{2}\ell\left(\theta\right)}{\partial\theta\partial\theta^{\prime}}\Bigr|_{\theta=\widehat{\theta}}\right]^{-}\left[\frac{\partial\ell\left(\theta\right)}{\partial\theta}\Bigr|_{\theta=\widehat{\theta}}\right]\\ \widehat{\theta}-\theta & =\left[\frac{\partial^{2}\ell\left(\theta\right)}{\partial\theta\partial\theta^{\prime}}\Bigr|_{\theta=\widehat{\theta}}\right]^{-}\left[\frac{\partial\ell\left(\theta\right)}{\partial\theta}\Bigr|_{\theta=\widehat{\theta}}\right]\\ \widehat{\theta}-\theta & =\left[\mathbb{H}\left(\theta\right)\Bigr|_{\theta=\widehat{\theta}}\right]^{-}\left[\mathbb{S}\left(\theta\right)\Bigr|_{\theta=\widehat{\theta}}\right] \end{align*}

Como

$ \theta=\widehat{\theta}-\left[\mathbb{H}\left(\theta\right)\Bigr|_{\theta=\widehat{\theta}}\right]^{-}\left[\mathbb{S}\left(\theta\right)\Bigr|_{\theta=\widehat{\theta}}\right] $

Así que

\begin{align*} \theta^{\left(m+1\right)} & =\theta^{\left(m\right)}-\left[\mathbb{H}\left(\theta^{\left(m\right)}\right)\right]^{-}\mathbb{S}\left(\theta^{\left(m\right)}\right)\quad\quad\left({\textrm{Newton-Raphson}}\right)\\ \\ \\ \theta^{\left(m+1\right)} & =\theta^{\left(m\right)}-\left[\mathbb{E}\left\{ \mathbb{H}\left(\theta^{\left(m\right)}\right)\right\} \right]^{-}\mathbb{S}\left(\theta^{\left(m\right)}\right)\\ \theta^{\left(m+1\right)} & =\theta^{\left(m\right)}+\left[\mathbb{I}\left(\theta^{\left(m\right)}\right)\right]^{-}\mathbb{S}\left(\theta^{\left(m\right)}\right)\quad\quad\left(\textrm{Fisher Scoring}\right) \end{align*}

Preguntas

  1. No estoy seguro de que mi derivación sea correcta o no. He visto al menos dos versiones diferentes de la derivación.
  2. ¿Cuál sería la media, la varianza y la distribución de $\widehat{\theta}$ (¿Podría ser por el método Delta)?

0 votos

¿Es para algún tema?

1 votos

@Glen_b: Esto no es una tarea en ningún caso.

0 votos

¿Por qué la derivada de la log-verosimilitud evaluada en el MLE no se considera igual a cero desde el principio?

8voto

Jeff Bauer Puntos 236

Dotaré $\hat \theta$ el estimador de máxima verosimilitud, mientras que $\theta^{\left(m+1\right)}$ y $\theta^{\left(m\right)}$ son dos vectores cualesquiera. $\theta_0$ denotará el verdadero valor del vector de parámetros. Suprimo la aparición de los datos.

La ( sin truncar ) Expansión de Taylor de 2º orden de la log-verosimilitud visto como una función de $\theta^{\left(m+1\right)}$ , $\ell\left(\theta^{\left(m+1\right)}\right)$ centrado en $\theta^{\left(m\right)}$ es (en una notación un poco más compacta que la utilizada por el OP)

$$\begin{align} \ell\left(\theta^{\left(m+1\right)}\right) =& \ell\left(\theta^{\left(m\right)}\right)+\frac{\partial\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right)\\ +&\frac{1}{2}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right)^{\prime}\frac{\partial^{2}\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta\partial\theta^{\prime}}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right)\\ +&R_2\left(\theta^{\left(m+1\right)}\right) \\\end{align}$$ La derivada de la log-verosimilitud es (utilizando las propiedades de la diferenciación matricial)

$$\frac{\partial}{\partial \theta^{\left(m+1\right)}}\ell\left(\theta^{\left(m+1\right)}\right) = \frac{\partial\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta} +\frac{\partial^{2}\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta\partial\theta^{\prime}}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right) +\frac{\partial}{\partial \theta^{\left(m+1\right)}}R_2\left(\theta^{\left(m+1\right)}\right) $$

Supongamos que exigimos que $$\frac{\partial}{\partial \theta^{\left(m+1\right)}}\ell\left(\theta^{\left(m+1\right)}\right)- \frac{\partial}{\partial \theta^{\left(m+1\right)}}R_2\left(\theta^{\left(m+1\right)}\right)=\mathbf 0$$

Entonces obtenemos $$\theta^{\left(m+1\right)}=\theta^{\left(m\right)}-\left[\mathbb{H}\left(\theta^{\left(m\right)}\right)\right]^{-1}\left[\mathbb{S}\left(\theta^{\left(m\right)}\right)\right]$$

Esta última fórmula muestra cómo el valor del candidato $\theta$ El vector se actualiza en cada paso del algoritmo. Y también vemos cómo se obtuvo la regla de actualización: $\theta^{\left(m+1\right)}$ debe elegirse de forma que su efecto marginal total sobre la log-verosimilitud sea igual a su efecto marginal sobre el resto de Taylor. De este modo, "contenemos" cuánto se aleja la derivada de la log-verosimilitud del valor cero.

Si (y cuando) sucede que $\theta^{\left(m\right)} = \hat \theta$ obtendremos

$$\theta^{\left(m+1\right)}=\hat \theta-\left[\mathbb{H}\left(\hat \theta\right)\right]^{-1}\left[\mathbb{S}\left(\hat \theta\right)\right]= \hat \theta-\left[\mathbb{H}\left(\hat \theta\right)\right]^{-1}\cdot \mathbf 0 = \hat \theta$$

ya que por construcción $\hat \theta$ hace que el gradiente de la log-verosimilitud sea cero. Esto nos dice que una vez que "golpeamos" $\hat \theta$ no vamos a ningún otro lugar después de eso, lo que, de manera intuitiva, valida nuestra decisión de ignorar esencialmente el resto, para calcular $\theta^{\left(m+1\right)}$ . Si se cumplen las condiciones de convergencia cuadrática del algoritmo, tenemos esencialmente un mapeo de contracción, y la estimación MLE es la (o una) punto fijo de ella. Tenga en cuenta que si $\theta^{\left(m\right)} = \hat \theta$ entonces el resto se convierte también en cero y entonces tenemos $$\frac{\partial}{\partial \theta^{\left(m+1\right)}}\ell\left(\theta^{\left(m+1\right)}\right)- \frac{\partial}{\partial \theta^{\left(m+1\right)}}R_2\left(\theta^{\left(m+1\right)}\right)=\frac{\partial}{\partial \theta}\ell\left(\hat \theta\right)=\mathbf 0$$

Así que nuestro método es internamente consistente.

DISTRIBUCIÓN DE $\hat \theta$
Para obtener la distribución asintótica del estimador MLE aplicamos el teorema del valor medio según el cual, si la log-verosimilitud es continua y diferenciable, entonces

$$\frac{\partial}{\partial \theta}\ell\left(\hat \theta\right) = \frac{\partial\ell\left(\theta_0\right)}{\partial\theta} +\frac{\partial^{2}\ell\left(\bar \theta\right)}{\partial\theta\partial\theta^{\prime}}\left(\hat \theta-\theta_0\right) = \mathbf 0$$

donde $\bar \theta$ es un valor medio entre $\hat \theta$ y $\theta_0$ . Entonces

$$\left(\hat \theta-\theta_0\right) = -\left[\mathbb{H}\left(\bar \theta\right)\right]^{-1}\left[\mathbb{S}\left( \theta_0\right)\right]$$

$$\Rightarrow \sqrt n\left(\hat \theta-\theta_0\right) = -\left[\frac 1n\mathbb{H}\left(\bar \theta\right)\right]^{-1}\left[\frac 1{\sqrt n}\mathbb{S}\left( \theta_0\right)\right]$$

Bajo los supuestos adecuados, el MLE es un estimador consistente. Entonces también lo es $\bar \theta$ ya que se encuentra entre el MLE y el valor verdadero. Bajo el supuesto de que nuestros datos son estacionarios, y una condición técnica más (una condición de dominancia local que garantiza que el valor esperado de la suma del hessiano en una vecindad del valor verdadero es finito) tenemos $$\frac 1n\mathbb{H}\left(\bar \theta\right) \rightarrow_p E\left[\mathbb{H}\left(\theta_0\right)\right]$$

Además, si el intercambio de integración y diferenciación es válido (que normalmente lo será), entonces $$E\left[\mathbb{S}\left( \theta_0\right)\right]=\mathbf 0$$ Esto, junto con la suposición de que nuestros datos son i.i.d, nos permite utilizar el CLT de Lindeberg-Levy y concluir que $$\left[\frac 1{\sqrt n}\mathbb{S}\left( \theta_0\right)\right] \rightarrow_d N(\mathbf 0, \Sigma),\qquad \Sigma = E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]$$

y entonces, aplicando el Teorema de Slutzky, que $$\Rightarrow \sqrt n\left(\hat \theta-\theta_0\right) \rightarrow_d N\left(\mathbf 0, \operatorname{Avar}\right)$$

con

$$\operatorname{Avar} = \Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big)^{-1}\cdot \Big(E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]\Big)\cdot \Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big)^{-1}$$

Pero el matriz de información igualdad afirma que

$$-\Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big) = \Big(E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]\Big)$$

y así $$\operatorname{Avar} = -\Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big)^{-1} = \Big(E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]\Big)^{-1}$$

Entonces, para muestras grandes, la distribución de $\hat \theta$ se aproxima por

$$\hat \theta \sim _{approx} N\left(\theta_0, \frac 1n\operatorname {\widehat Avar}\right)$$

para un estimador consistente para $\operatorname {\widehat Avar}$ (los análogos muestrales de los valores esperados implicados son tales estimadores consistentes).

0voto

Murdock Puntos 123

Bajo ciertas condiciones de regularidad, las estimaciones de máxima verosimilitud siguen asintóticamente una distribución normal con la media de los valores verdaderos de los parámetros y la matriz de covarianza la inversa de la matriz de información de Fisher también evaluada en los valores verdaderos de los parámetros.

El método Delta se utiliza normalmente para derivar los errores estándar para una función no lineal de los MLEs - una mejor alternativa es el Bootstrap.

0 votos

Gracias @Dimitris por tu respuesta. Necesito una derivación concreta de este problema para mi mejor comprensión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X