7 votos

¿Por qué la estimación de máxima probabilidad funciona como lo hace?

Ahora mismo estoy dándole vueltas a la MLE y hay algo que me molesta, seguro que irracionalmente. Creo que entiendo el procedimiento: esencialmente mantenemos nuestras observaciones fijas y maximizamos la función de verosimilitud con respecto a los parámetros para encontrar los parámetros que harían una PDF que asigna un valor máximo a nuestras observaciones.

Mi pregunta es la siguiente: ¿por qué nos interesa encontrar ese PDF? En particular, me imagino que acabamos con una PDF muy sesgada, de modo que el valor esperado está muy lejos del máximo. ¿O qué pasa si tenemos una FDP aún más extraña que esa? Si $f$ es un PDF, tenía entendido que el número $f(x)$ no es especialmente significativo para las variables aleatorias continuas; lo que nos importa es el área bajo la curva. Entonces, ¿por qué no intentamos de alguna manera maximizar el área bajo nuestras observaciones, o tener en cuenta el valor esperado o algo así?

Espero que esta pregunta tenga un poco de sentido. Puedo intentar aclararlo si no es así.

0 votos

¿Ya has digerido este ?

2voto

Fbo Puntos 413

Supongamos que se trata de maximizar la probabilidad de los datos i.i.d. $x_1, x_2, \ldots, x_n$ con p.d.f. $f(x)$ y el vector de parámetros $\theta$ .

La probabilidad conjunta de los datos dados $\theta$ es $$ f(x_1, x_2, \ldots, x_n | \theta) = \prod_i f(x_i | \theta) $$ .

El objetivo es encontrar $\theta$ que maximiza la probabilidad conjunta de $x_1, x_2, \ldots, x_n$ . Recuerda que no sabemos $\theta$ todavía, pero podemos ser el proceso de estimación definiendo la función de probabilidad $$ l(\theta|x_1, x_2, \ldots, x_n) = \prod_i f(x_i | \theta)$$ .

Si imaginamos la función de probabilidad como una f.d.p. unimodal, el punto que maximiza la probabilidad de los datos se encuentra en el pico de la joroba. Podemos utilizar el cálculo para encontrar este punto porque el máximo de una función tiene dos propiedades: (1) su derivada es cero y (2) la segunda derivada es negativa, o, $$\frac{\partial}{\partial \theta} l(\theta|x_1, x_2, \ldots, x_n) = 0 $$ y $$ \frac{\partial^2}{\partial \theta^2} l(\theta|x_1, x_2, \ldots, x_n) < 0 $$ .

Resolviendo la condición de primer orden para $\theta$ se obtiene una forma funcional para un estimador que maximiza la probabilidad conjunta de los datos $x_1, x_2, \ldots, x_n$ .

Es bueno señalar que estas son condiciones suficientes para un máximo local . Si la f.d.p. no es unimodal como imaginamos, entonces no podemos garantizar que nuestra estimación sea el estimador de máxima verosimilitud. En general, se pueden utilizar métodos numéricos para explorar la función de verosimilitud de un máximo global cuando su identificación no es evidente.

1voto

Shubham Kumar Puntos 11

La función de verosimilitud es la probabilidad de la muestra seleccionada. Porque deseamos estimar el parámetro sobre la base de la muestra y, por lo tanto, la probabilidad de seleccionar la muestra debe ser máxima. Por eso maximizamos la función de verosimilitud para obtener la estimación necesaria del parámetro

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X