Dotaré $\hat \theta$ el estimador de máxima verosimilitud, mientras que $\theta^{\left(m+1\right)}$ y $\theta^{\left(m\right)}$ son dos vectores cualesquiera. $\theta_0$ denotará el verdadero valor del vector de parámetros. Suprimo la aparición de los datos.
La ( sin truncar ) Expansión de Taylor de 2º orden de la log-verosimilitud visto como una función de $\theta^{\left(m+1\right)}$ , $\ell\left(\theta^{\left(m+1\right)}\right)$ centrado en $\theta^{\left(m\right)}$ es (en una notación un poco más compacta que la utilizada por el OP)
$$\begin{align} \ell\left(\theta^{\left(m+1\right)}\right) =& \ell\left(\theta^{\left(m\right)}\right)+\frac{\partial\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right)\\ +&\frac{1}{2}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right)^{\prime}\frac{\partial^{2}\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta\partial\theta^{\prime}}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right)\\ +&R_2\left(\theta^{\left(m+1\right)}\right) \\\end{align}$$ La derivada de la log-verosimilitud es (utilizando las propiedades de la diferenciación matricial)
$$\frac{\partial}{\partial \theta^{\left(m+1\right)}}\ell\left(\theta^{\left(m+1\right)}\right) = \frac{\partial\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta} +\frac{\partial^{2}\ell\left(\theta^{\left(m\right)}\right)}{\partial\theta\partial\theta^{\prime}}\left(\theta^{\left(m+1\right)}-\theta^{\left(m\right)}\right) +\frac{\partial}{\partial \theta^{\left(m+1\right)}}R_2\left(\theta^{\left(m+1\right)}\right) $$
Supongamos que exigimos que $$\frac{\partial}{\partial \theta^{\left(m+1\right)}}\ell\left(\theta^{\left(m+1\right)}\right)- \frac{\partial}{\partial \theta^{\left(m+1\right)}}R_2\left(\theta^{\left(m+1\right)}\right)=\mathbf 0$$
Entonces obtenemos $$\theta^{\left(m+1\right)}=\theta^{\left(m\right)}-\left[\mathbb{H}\left(\theta^{\left(m\right)}\right)\right]^{-1}\left[\mathbb{S}\left(\theta^{\left(m\right)}\right)\right]$$
Esta última fórmula muestra cómo el valor del candidato $\theta$ El vector se actualiza en cada paso del algoritmo. Y también vemos cómo se obtuvo la regla de actualización: $\theta^{\left(m+1\right)}$ debe elegirse de forma que su efecto marginal total sobre la log-verosimilitud sea igual a su efecto marginal sobre el resto de Taylor. De este modo, "contenemos" cuánto se aleja la derivada de la log-verosimilitud del valor cero.
Si (y cuando) sucede que $\theta^{\left(m\right)} = \hat \theta$ obtendremos
$$\theta^{\left(m+1\right)}=\hat \theta-\left[\mathbb{H}\left(\hat \theta\right)\right]^{-1}\left[\mathbb{S}\left(\hat \theta\right)\right]= \hat \theta-\left[\mathbb{H}\left(\hat \theta\right)\right]^{-1}\cdot \mathbf 0 = \hat \theta$$
ya que por construcción $\hat \theta$ hace que el gradiente de la log-verosimilitud sea cero. Esto nos dice que una vez que "golpeamos" $\hat \theta$ no vamos a ningún otro lugar después de eso, lo que, de manera intuitiva, valida nuestra decisión de ignorar esencialmente el resto, para calcular $\theta^{\left(m+1\right)}$ . Si se cumplen las condiciones de convergencia cuadrática del algoritmo, tenemos esencialmente un mapeo de contracción, y la estimación MLE es la (o una) punto fijo de ella. Tenga en cuenta que si $\theta^{\left(m\right)} = \hat \theta$ entonces el resto se convierte también en cero y entonces tenemos $$\frac{\partial}{\partial \theta^{\left(m+1\right)}}\ell\left(\theta^{\left(m+1\right)}\right)- \frac{\partial}{\partial \theta^{\left(m+1\right)}}R_2\left(\theta^{\left(m+1\right)}\right)=\frac{\partial}{\partial \theta}\ell\left(\hat \theta\right)=\mathbf 0$$
Así que nuestro método es internamente consistente.
DISTRIBUCIÓN DE $\hat \theta$
Para obtener la distribución asintótica del estimador MLE aplicamos el teorema del valor medio según el cual, si la log-verosimilitud es continua y diferenciable, entonces
$$\frac{\partial}{\partial \theta}\ell\left(\hat \theta\right) = \frac{\partial\ell\left(\theta_0\right)}{\partial\theta} +\frac{\partial^{2}\ell\left(\bar \theta\right)}{\partial\theta\partial\theta^{\prime}}\left(\hat \theta-\theta_0\right) = \mathbf 0$$
donde $\bar \theta$ es un valor medio entre $\hat \theta$ y $\theta_0$ . Entonces
$$\left(\hat \theta-\theta_0\right) = -\left[\mathbb{H}\left(\bar \theta\right)\right]^{-1}\left[\mathbb{S}\left( \theta_0\right)\right]$$
$$\Rightarrow \sqrt n\left(\hat \theta-\theta_0\right) = -\left[\frac 1n\mathbb{H}\left(\bar \theta\right)\right]^{-1}\left[\frac 1{\sqrt n}\mathbb{S}\left( \theta_0\right)\right]$$
Bajo los supuestos adecuados, el MLE es un estimador consistente. Entonces también lo es $\bar \theta$ ya que se encuentra entre el MLE y el valor verdadero. Bajo el supuesto de que nuestros datos son estacionarios, y una condición técnica más (una condición de dominancia local que garantiza que el valor esperado de la suma del hessiano en una vecindad del valor verdadero es finito) tenemos $$\frac 1n\mathbb{H}\left(\bar \theta\right) \rightarrow_p E\left[\mathbb{H}\left(\theta_0\right)\right]$$
Además, si el intercambio de integración y diferenciación es válido (que normalmente lo será), entonces $$E\left[\mathbb{S}\left( \theta_0\right)\right]=\mathbf 0$$ Esto, junto con la suposición de que nuestros datos son i.i.d, nos permite utilizar el CLT de Lindeberg-Levy y concluir que $$\left[\frac 1{\sqrt n}\mathbb{S}\left( \theta_0\right)\right] \rightarrow_d N(\mathbf 0, \Sigma),\qquad \Sigma = E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]$$
y entonces, aplicando el Teorema de Slutzky, que $$\Rightarrow \sqrt n\left(\hat \theta-\theta_0\right) \rightarrow_d N\left(\mathbf 0, \operatorname{Avar}\right)$$
con
$$\operatorname{Avar} = \Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big)^{-1}\cdot \Big(E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]\Big)\cdot \Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big)^{-1}$$
Pero el matriz de información igualdad afirma que
$$-\Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big) = \Big(E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]\Big)$$
y así $$\operatorname{Avar} = -\Big(E\left[\mathbb{H}\left(\theta_0\right)\right]\Big)^{-1} = \Big(E\left[\mathbb{S}\left( \theta_0\right)\mathbb{S}\left( \theta_0\right)'\right]\Big)^{-1}$$
Entonces, para muestras grandes, la distribución de $\hat \theta$ se aproxima por
$$\hat \theta \sim _{approx} N\left(\theta_0, \frac 1n\operatorname {\widehat Avar}\right)$$
para un estimador consistente para $\operatorname {\widehat Avar}$ (los análogos muestrales de los valores esperados implicados son tales estimadores consistentes).
0 votos
¿Es para algún tema?
1 votos
@Glen_b: Esto no es una tarea en ningún caso.
0 votos
¿Por qué la derivada de la log-verosimilitud evaluada en el MLE no se considera igual a cero desde el principio?
1 votos
No se necesita una expansión de Taylor de la log-verosimilitud, sino una expansión del valor medio de la derivada de la log-verosimilitud evaluada en la MLE $\hat \theta$ .