¿Cómo puedo demostrar que es así?
Dado que se tiene una especificación completa de la distribución muestral de las observaciones, se puede obtener la forma explícita de la log-verosimilitud. Tratamiento de $\sigma$ como fijos y quitando las constantes aditivas tenemos:
$$\ell_\mathbf{x}(\theta) = -\frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \theta)^2 \quad \quad \quad \text{for all } \theta \in \mathbb{R}.$$
A partir de esta función es posible derivar la función de puntuación, la función de información y la MLE, lo que significa que debería ser capaz de verificar directamente la ecuación sustituyendo todos estos elementos. (Dejaré este trabajo como ejercicio).
¿No es siempre cero la puntuación de la MLE?
Para entender cuándo la puntuación de la MLE es cero, piense en sus primeras clases de cálculo. Cuando se maximiza una función continua diferenciable, esta a menudo da un valor maximizador en un punto crítico de la función. Pero el valor maximizador no es siempre en un punto crítico. En algunos casos puede estar en un punto límite de la función. Ahora bien, en el contexto de la máxima verosimilitud, es habitual que la función log-verosimilitud sea estrictamente cóncava, de modo que hay un único MLE en el punto crítico de la función, es decir, cuando la función de puntuación es igual a cero. Sin embargo, todavía tenemos que tener cuidado de que este sea el caso, y es posible en algunos casos que el MLE se produzca en un punto límite. Recuerde que el análisis de máxima verosimilitud no tiene nada de especial, ya que matemáticamente no es más que un problema de optimización estándar en el que interviene una función de logaritmo-verosimilitud y que se resuelve mediante técnicas de optimización ordinarias.
Ahora bien, en este caso particular, resulta que la función log-verosimilitud anterior es estrictamente cóncava (demuéstrelo observando su segunda derivada) y, por tanto, la MLE se produce en el único punto crítico de la función. Por lo tanto, en este caso, es correcto que encontremos la MLE estableciendo la función de puntuación a cero (y por lo tanto, obviamente, la puntuación de la MLE es igual a cero en este caso).
Cuando los estadísticos se ocupan de la teoría de la máxima verosimilitud, a menudo asumen "condiciones de regularidad", que son las condiciones necesarias para permitir que la log-verosimilitud se expanda en una expansión de Taylor, y para asegurar que la MLE cae en un punto crítico. Por lo tanto, si se lee material sobre las propiedades de las MLEs, se encontrará a menudo que son de la forma, "Bajo tales y tales condiciones de regularidad, se produce tal y tal resultado".
¿Dependen estos resultados de los datos en realidad ¿se distribuye normalmente?
En este tipo de problemas, se considera que la función de log-verosimilitud es la derivada de la distribución que piense en los datos son los siguientes. Así que, aunque la distribución de los datos resulte no ser normal, el contexto del problema sugiere que piense en es normal, por lo que ésta es la función de log-verosimilitud que utilizamos para nuestro análisis. Del mismo modo, derivamos la MLE como si los datos fueran normales, aunque resulten no serlo.
En este caso particular, todas las ecuaciones relevantes que tiene deben seguirse directamente de la forma asumida de la función log-verosimilitud, para todos los resultados posibles de los datos. Sin embargo, es importante recordar que la MLE es una función de los datos, por lo que su comportamiento probabilístico depende del verdadera distribución de los datos, que podría no ser nuestra forma asumida. Por lo tanto, si se hiciera alguna afirmación probabilística sobre el MLE (por ejemplo, que caerá dentro de un cierto intervalo con una determinada probabilidad), entonces esto dependería generalmente del comportamiento de los datos, que dependería de su verdadera distribución .
1 votos
Esto se discute aquí
1 votos
@kjetil: Gracias por la referencia. La siguiente frase en la que citas a Charles J. Geyer es la que todavía estoy tratando de entender a cierto nivel "Si la logverosimilitud es aproximadamente cuadrática con hessiano constante, entonces el estimador de máxima verosimilitud (MLE) está aproximadamente distribuido normalmente. No se requiere ningún otro supuesto".