Encuentre el MLE del parámetro desconocido $\theta$ al $X_1,X_2,...,X_n$ se muestra un ejemplo de la distribución cuya función de densidad es: $$f_X(x) = \frac12e^{-|x-\theta|}, -\infty<x<\infty$$ Lo que hice hasta ahora: $$\text{maximizar }(\frac12)^ne^{-|x_1-\theta|-|x_2-\theta|-...-|x_n-\theta|} \\ \text{por lo tanto queremos minimizar }|x_1-\theta|+|x_2-\theta|+...+|x_n-\theta|$$ Desde $|x_i-\theta|$ es positivo para todos los $i$, queremos resolver para $\theta$ así: $$|x_1-\theta|+|x_2-\theta|+...+|x_n-\theta|=0$$ ¿Qué puedo hacer desde aquí?
Respuestas
¿Demasiados anuncios?$$f_X(x) = \frac12e^{-|x-\theta|}, -\infty<x<\infty$$
es un caso especial de la distribución de Laplace dada de la siguiente manera:
$$f_X(x|\mu,\sigma)=\frac{1}{\sqrt{2}\sigma}e^{-\frac{\sqrt{2}|x-\mu|}{\sigma}},x\in\mathbb{R}$$
para$\sigma=\sqrt{2}$$\mu:=\theta$. Para ser más general, vamos a considerar la distribución de Laplace con los parámetros de $(\mu,\sigma)$.
Considerar la probabilidad de la función de $N$ ejemplos de datos:
$$L(\mu,\sigma;x)=\prod_{t=1}^N \frac{1}{\sqrt{2}\sigma}e^{-\frac{\sqrt{2}|x_t-\mu|}{\sigma}}=(\sqrt{2}\sigma)^{-N}e^{\frac{-\sqrt{2}}{\sigma}\sum_{t=1}^N |x_t-\mu|}$$
Tomar el registro de probabilidad función de ($l(\mu,\sigma;x)=log(L(\mu,\sigma;x))$ y obtenemos
$$l(\mu,\sigma;x)=-N\ln (\sqrt{2}\sigma)-\frac{\sqrt{2}}{\sigma}\sum_{t=1}^N |x_t-\mu|$$
Tomar la derivada con respecto al parámetro de $\mu$
$$\frac{\partial l}{\partial \mu}=-\frac{\sqrt{2}}{\sigma}\sum_{t=1}^N \frac{\partial|x_t-\mu|}{\partial\mu}$$
que es igual a
$$=\frac{\sqrt{2}}{\sigma}\sum_{t=1}^N\mbox{sgn}(x_t-\mu)$$
el uso de la identidad
$$\frac{\partial |x|}{\partial x}=\frac{\partial \sqrt{x^2}}{\partial x}=x(x^2)^{-1/2}=\frac{x}{|x|}=\mbox{sgn(x)}$$
Para maximizar la probabilidad de la función tenemos que resolver
$$=\frac{\sqrt{2}}{\sigma}\sum_{t=1}^N\mbox{sgn}(x_t-\mu)=0 \quad\quad (1)$$
Para los que tenemos dos casos; $N$ es par o impar.
Si $N$ es impar y elegimos $\hat{\mu}=\mbox{median}(x_1,\ldots ,x_N)$, entonces no se $\frac{N-1}{2}$ de los casos donde $x_t<\mu$ y para el otro $\frac{N-1}{2}$ casos $x_t>\mu$, por lo $\hat{\mu}$ satisface ($1$) y es el estimador de Máxima verosimilitud para el parámetro $\mu$
Si $N$ es aún, no podemos simplemente elija uno $x_t$ que va a satisfacer ($1$), sin embargo todavía podemos minimizar a través de la clasificación de las observaciones de la $x_1\leq x_2\leq \ldots,x_N$ y, a continuación, eligiendo $x_{N/2}$ o $x_{(N+1)/2}$
En resumen $\hat{\mu}=\mbox{median}(x_1,\ldots ,x_N)$ es el estimador de máxima verosimilitud para cualquier $N$
Si miras aquí, el estimador de la $\theta$ es la media de $x_1,...,x_n$. Esta es la norma porque en realidad son la minimización de la suma de las desviaciones absolutas.