He visto la siguiente justificación para la prueba de Wald de la hipótesis nula H0:θ=θ0H0:θ=θ0 por un escalar parámetro θθ. Al ˆθn^θn es el MLE para θθ estimado a partir de una muestra independiente del tamaño de la nn, bajo la hipótesis nula tenemos √n(ˆθn−θ0)→N(0,1i(θ0))√n(^θn−θ0)→N(0,1i(θ0)) en la distribución como n→∞n→∞ donde i(θ0)i(θ0) es la información que se espera de una única observación, evaluado en θ0θ0. Así que me parece que debemos de utilizar el estadístico de prueba
√n(ˆθn−θ0)√1i(θ0)√n(^θn−θ0)√1i(θ0)
que será de aproximadamente N(0,1)N(0,1) grandes nn. Sin embargo, parece ser más común para escribir la Wald estadística como
√n(ˆθn−θ0)√1i(ˆθ),√n(^θn−θ0) ⎷1i(^θ),
es decir, para evaluar la información que se espera en ˆθ^θ más que en θ0θ0. Mi pregunta es, teniendo en cuenta que tenemos la distribución de la estadística de prueba bajo el nulo para realizar nuestra prueba de hipótesis, no tendría más sentido para intentar estimar el error estándar bajo el nulo, es decir, para estimar el s.e.(ˆθ)s.e.(^θ)√1i(θ0)√1i(θ0)?