Digamos que tengo un vector de datos $X_1,\ldots,X_n$ que quiero modelar con alguna función de distribución paramétrica $f(X_i;\theta,Z_i)$ y las covariables $Z_i$ . En este caso, ¿cómo puedo demostrar la normalidad asintótica de la máxima verosimilitud $\hat{\theta}$ ?
Muchas pruebas de la normalidad asintótica de la MLE se centran en la situación en la que $X_1,\ldots,X_n$ son i.i.d. (por ejemplo, Comportamiento normal asintótico de la MLE, pregunta sobre la prueba. ). Sea $S_i(\theta)=\frac{\partial}{\partial \theta} \ln f(x_i,\theta)$ , $S'_i(\theta)=\frac{\partial^2}{(\partial \theta)^2} \ln f(x_i,\theta)$ , $S_n(\theta)=\sum_{i=1}^n S_i(\theta)$ y $S'_n(\theta)=\sum_{i=1}^n S'_i(\theta)$ . Cuando $X_i$ son i.i.d., la prueba sigue aproximadamente los siguientes pasos:
(1) La MLE es consistente $\hat{\theta}_n \rightarrow \theta$ donde $\theta$ es el valor verdadero. La prueba (por ejemplo http://ocw.mit.edu/courses/mathematics/18-443-statistics-for-applications-fall-2006/lecture-notes/lecture3.pdf ) a menudo utiliza LLN y $\ln f(X_i;\theta)$ necesita ser identificada.
(2) $\sqrt{n}(\hat{\theta}_n-\theta) \approx \frac{\frac{1}{\sqrt{n}}S_n(\theta)}{\frac{1}{n}S'_n(\theta)}$ . La aproximación se mantiene para grandes $n$ debido a (1)
(3) El numerador converge en la distribución a $$ N(0,\operatorname{Var}(S_i(\theta))) \tag{$ * $} $$ por CLT.
(4) El denominador converge en probabilidad a $E(S'_i(\theta))$ por LLN.
(5) $E(S'_i(\theta))=\operatorname{Var}(S_i(\theta))=I_1(\theta)$
(6) Por el teorema de Slutsky y (2),(3),(4),(5), y dejando que Z sea de $(*)$ :
$$\sqrt{n}(\hat{\theta}_n-\theta) \rightarrow E(S'_i(\theta))^{-1} Z \sim N(0,E(S'_i(\theta))^{-1} \operatorname{Var}(S_i(\theta)) E(S'_i(\theta))^{-1}) =N(0,I_1(\theta)^{-1}).$$
Sin embargo, cuando los datos se modelan con covariables, los datos dejan de tener una distribución idéntica. Por lo tanto, la LLN y la CLT utilizadas en (1), (3), (4) no se cumplen. ¿Puede alguien explicar cómo demostrar la normalidad asintótica de la MLE en esta circunstancia?