6 votos

¿Es la aproximación cuadrática de la log-verosimilitud equivalente a la aproximación normal de la MLE?

Dejemos que $X_1, X_2, ..., X_n \sim \text{IID N}(\theta, \sigma^2)$ con $\sigma^2$ conocido, y que $\hat{\theta}$ sea el MLE de la media.

(1) ¿Cómo puedo demostrar que en este caso es cierto lo siguiente?

$$\log \frac{L(\theta)}{L(\hat{\theta})} = - \frac{1}{2} I(\hat{\theta}) (\theta - \hat{\theta})^2.$$

Según entiendo, parte de la prueba tendría que mostrar que el siguiente término en la expansión de Taylor de la función de probabilidad sobre la MLE es cero:

$$S(\hat{\theta}) (\theta - \hat{\theta}).$$

Si leo correctamente, Yudi Pawitan, sugiere que el término anterior es exactamente igual a cero cuando el $X$ los valores están exactamente distribuidos normalmente.

(2) ¿Es el término anterior igual a cero si las x están distribuidas exactamente de forma normal?

¿Pero la función de puntuación evaluada en el MLE no es siempre cero, porque así es como encontramos el MLE en primer lugar, resolviendo el MLE que iguala la función de puntuación a cero?

(3) ¿Se cumple la ecuación (1) sólo si el $X$ ¿los valores se distribuyen exactamente de forma normal? O, lo que es lo mismo, ¿es el término de (2) igual a cero sólo si el $X$ ¿los valores se distribuyen normalmente? ¿Por qué no se cumple (1) si el $X$ tienen una distribución distinta a la (exactamente) normal? ¿Por qué (2) no es exactamente cero independientemente de la distribución de los $X$ ¿valores?

Sé que me falta algo fundamental aquí, así que espero que alguien pueda iluminarme.

1 votos

Esto se discute aquí

1 votos

@kjetil: Gracias por la referencia. La siguiente frase en la que citas a Charles J. Geyer es la que todavía estoy tratando de entender a cierto nivel "Si la logverosimilitud es aproximadamente cuadrática con hessiano constante, entonces el estimador de máxima verosimilitud (MLE) está aproximadamente distribuido normalmente. No se requiere ningún otro supuesto".

3voto

Aaron Puntos 36

¿Cómo puedo demostrar que es así?

Dado que se tiene una especificación completa de la distribución muestral de las observaciones, se puede obtener la forma explícita de la log-verosimilitud. Tratamiento de $\sigma$ como fijos y quitando las constantes aditivas tenemos:

$$\ell_\mathbf{x}(\theta) = -\frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \theta)^2 \quad \quad \quad \text{for all } \theta \in \mathbb{R}.$$

A partir de esta función es posible derivar la función de puntuación, la función de información y la MLE, lo que significa que debería ser capaz de verificar directamente la ecuación sustituyendo todos estos elementos. (Dejaré este trabajo como ejercicio).

¿No es siempre cero la puntuación de la MLE?

Para entender cuándo la puntuación de la MLE es cero, piense en sus primeras clases de cálculo. Cuando se maximiza una función continua diferenciable, esta a menudo da un valor maximizador en un punto crítico de la función. Pero el valor maximizador no es siempre en un punto crítico. En algunos casos puede estar en un punto límite de la función. Ahora bien, en el contexto de la máxima verosimilitud, es habitual que la función log-verosimilitud sea estrictamente cóncava, de modo que hay un único MLE en el punto crítico de la función, es decir, cuando la función de puntuación es igual a cero. Sin embargo, todavía tenemos que tener cuidado de que este sea el caso, y es posible en algunos casos que el MLE se produzca en un punto límite. Recuerde que el análisis de máxima verosimilitud no tiene nada de especial, ya que matemáticamente no es más que un problema de optimización estándar en el que interviene una función de logaritmo-verosimilitud y que se resuelve mediante técnicas de optimización ordinarias.

Ahora bien, en este caso particular, resulta que la función log-verosimilitud anterior es estrictamente cóncava (demuéstrelo observando su segunda derivada) y, por tanto, la MLE se produce en el único punto crítico de la función. Por lo tanto, en este caso, es correcto que encontremos la MLE estableciendo la función de puntuación a cero (y por lo tanto, obviamente, la puntuación de la MLE es igual a cero en este caso).

Cuando los estadísticos se ocupan de la teoría de la máxima verosimilitud, a menudo asumen "condiciones de regularidad", que son las condiciones necesarias para permitir que la log-verosimilitud se expanda en una expansión de Taylor, y para asegurar que la MLE cae en un punto crítico. Por lo tanto, si se lee material sobre las propiedades de las MLEs, se encontrará a menudo que son de la forma, "Bajo tales y tales condiciones de regularidad, se produce tal y tal resultado".

¿Dependen estos resultados de los datos en realidad ¿se distribuye normalmente?

En este tipo de problemas, se considera que la función de log-verosimilitud es la derivada de la distribución que piense en los datos son los siguientes. Así que, aunque la distribución de los datos resulte no ser normal, el contexto del problema sugiere que piense en es normal, por lo que ésta es la función de log-verosimilitud que utilizamos para nuestro análisis. Del mismo modo, derivamos la MLE como si los datos fueran normales, aunque resulten no serlo.

En este caso particular, todas las ecuaciones relevantes que tiene deben seguirse directamente de la forma asumida de la función log-verosimilitud, para todos los resultados posibles de los datos. Sin embargo, es importante recordar que la MLE es una función de los datos, por lo que su comportamiento probabilístico depende del verdadera distribución de los datos, que podría no ser nuestra forma asumida. Por lo tanto, si se hiciera alguna afirmación probabilística sobre el MLE (por ejemplo, que caerá dentro de un cierto intervalo con una determinada probabilidad), entonces esto dependería generalmente del comportamiento de los datos, que dependería de su verdadera distribución .

0 votos

Muchas gracias, Ben. Una cosa importante que me faltaba era que S(theta hat) no tiene por qué ser igual a cero en el caso de un máximo del punto límite. Gracias por este punto.

0 votos

Una última conexión que intento hacer, se refiere a la que existe entre la regularidad de la log-verosimilitud y la normalidad del sombrero theta (no de las x). Yudi Pawitan escribe "una aproximación cuadrática de la log-verosimilitud corresponde a una aproximación normal del sombrero theta". Parece decir que si suponemos que la función log-verosimilitud es regular, o bien aproximada por una función cuadrática, eso equivale de alguna manera a una aproximación normal del sombrero theta. No entiendo a qué se refiere la "aproximación normal del sombrero theta" y cómo se relaciona con la regularidad.

0 votos

Aquí hay un poco más de claridad: Lo que dice Yudi Pawitan es que si suponemos que la estimación ML tiene una distribución de muestreo normal, lo que leo como que si hubiéramos extraído una muestra diferente habríamos obtenido una estimación ML diferente y si hubiéramos seguido haciéndolo para todas las muestras de tamaño n, obtendríamos toda la colección de estimaciones ML, que suponemos que tienen una densidad de probabilidad normal. A continuación, hace la desconcertante conexión entre este supuesto de normalidad y la regularidad de la función de log-verosimilitud.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X