4 votos

MLE de $f(x\vert\theta)=1/\theta$ , $x_1 , \cdots , x_n \sim U(0,\theta) \;\;, \theta>0$ ,

Pregunta original

$x_1 , \cdots , x_n$ son variables aleatorias independientes, idénticamente distribuidas como una distribución uniforme sobre $(0,\theta)$ .

$$ f(x \vert \theta) = \frac{1}{\theta}, \; 0<x<\theta, \;\; \theta >0 $$

¿Cuál es el estimador de máxima verosimilitud para $\theta$ .

Comentario sobre las desigualdades estrictas

(de olooney, editado ligeramente)

El MLE no existe si utilizamos la desigualdad estricta. Pero $x_i \sim U(0, \theta)$ tiene varias definiciones pero deja clara la intención: modelar los datos como una distribución uniforme. Para una f.d.p. continua cualquier número finito de puntos tiene medida 0 y se puede añadir o eliminar y la respuesta es " casi seguramente "(jerga para "con probabilidad 1") lo mismo.

¿Por qué no utilizar una definición del U que hace que el problema del MLE sea manejable y que es casi seguro que sea el mismo?

Nótese que la pregunta tiene desigualdades estrictas, no débiles

Esto se destaca en esta respuesta

Otras publicaciones similares a ésta

Aunque busqué otros han destacado otros puestos de naturaleza similar :

MLE para el uniforme $(0,\theta)$

¿Cómo se diferencia la función de verosimilitud de la distribución uniforme para hallar la M.L.E.?

4voto

chrism2671 Puntos 991

El f.d.p. de uno $x_i$ se da como

$$ f(x| \theta) = \begin{cases} \frac{1}{\theta} & & \text{if } 0 \leq x \leq \theta \\ 0 & & \text{otherwise} \end{cases} $$ Llamemos a $\vec{x} = (x_1, ..., x_n)$ .

El $n$ observaciones son i.i.d. por lo que la probabilidad de observar el $n$ -vector $\vec{x} = (x_1, ... x_n)$ es el producto de las probabilidades por componentes. Ignorando por el momento la cuestión del soporte, nótese que este producto puede escribirse simplemente como una potencia:

$$ f(\vec{x}| \theta) = \prod_i^n \frac{1}{\theta} = \frac{1}{\theta^n} = \theta^{-n} $$

A continuación, nos centramos en el soporte de esta función. Si algún componente está fuera de su intervalo de soporte $(0, 1/\theta)$ , entonces su contribución a esta ecuación es un factor 0, por lo que el producto del conjunto será cero. Por lo tanto $f(\vec{x})$ sólo tiene soporte cuando todo los componentes están dentro $(0, 1/\theta)$ .

$$ f(\vec{x}| \theta) = \begin{cases} \theta^{-n} & & \text{if } \forall i, \ 0 \leq x_i \leq \theta \\ 0 & & \text{otherwise} \end{cases} $$

Por definición, esta es también nuestra probabilidad:

$$ \mathcal{L}(\theta; \vec{x}) = f(\vec{x}| \theta) = \begin{cases} \theta^{-n} & & \text{if } \forall i, \ 0 \leq x_i \leq \theta \\ 0 & & \text{otherwise} \end{cases} $$

El problema MLE consiste en maximizar $\mathcal{L}$ con respecto a $\theta$ . Pero como $\theta > 0$ (dado en el título del problema) entonces $\theta^{-n} > 0$ por lo que 0 nunca será el máximo. Por tanto, se trata de un problema de optimización con restricciones:

$$ \hat{\theta} = \text{argmin}_\theta \,\, \theta^{-n} \text{ s.t. } \forall i \,\, 0 \leq x_i \leq \theta $$

Esto es fácil de resolver como un caso especial por lo que no necesitamos hablar del método simplex sino que podemos presentar un argumento más elemental. Sea $t = \text{max} \,\, \{x_1,...,x_n\}$ . Supongamos que tenemos una solución candidata $\theta_1 = t - \epsilon$ . Entonces dejemos que $\theta_2 = t - \epsilon/2$ . Claramente ambos $\theta_1$ y $\theta_2$ están en el interior de la región factible. Además, tenemos $\theta_2 > \theta_1 \implies \theta_2^{-n} < \theta_2^{-n}$ . Por lo tanto, $\theta_1$ no está en el mínimo. Concluimos que el mínimo no puede estar en cualquier punto interior y en particular no debe ser estrictamente menos de $t$ . Sin embargo, $t$ está en la región factible, por lo que debe ser el mínimo. Por lo tanto,

$$\hat{\theta} = \text{max} \,\, \{x_1,..., x_n\}$$

es el estimador de máxima verosimilitud.

Tenga en cuenta que si algún observado $x_i$ es menor que 0, entonces $\mathcal{L}$ es una constante 0 y el problema de optimización no tiene solución única.

2voto

Hugo Forte Puntos 484

Consideremos en primer lugar el caso cuando la pregunta se lee tal y como está planteada. Este es el enfoque que yo recomendaría si se planteara esta pregunta, por ejemplo, en una clase de introducción a la estadística teórica. Los ejemplos de juguete como éste se asignan comúnmente como problemas de tarea o en los exámenes en tales clases.

Puedes demostrar (hacerlo) que la función de probabilidad es $$ L(\theta) = \begin{cases} \theta^{-n} & \theta > x_{(n)} \\ 0 & \theta \leq x_{(n)}\end{cases}, $$ où $x_{(n)} = \max(x_1, \dots, x_n)$ . La estimación de máxima probabilidad (MLE), si existe, es la $\theta \in (0, \infty)$ que maximiza $L(\theta)$ . En este caso, como la desigualdad $\theta > x_{(n)}$ es estricta, el MLE no existe . De hecho, para cualquier $\theta' > x_{(n)}$ La probabilidad siempre puede aumentar si se desplaza ligeramente hacia la izquierda. Sin embargo, no se puede elegir como MLE $\hat{\theta} = x_{(n)}$ desde $L(x_{(n)}) = 0$ . Evidentemente, no hay puntos a la izquierda de $x_{(n)}$ tampoco puede ser el MLE ya que la probabilidad desaparece allí.

Ahora tratemos también el caso en el que la pregunta se interpreta de forma diferente. Si es libre de elegir qué densidad para el $U(0, \theta)$ es decir, no tiene que utilizar la que se da en la pregunta, entonces tiene sentido elegir la densidad $f(x\mid \theta) = \theta^{-1}$ , $0 \leq x \leq \theta$ En su lugar. Recordemos que las densidades (de Lebesgue) sólo son únicas hasta los cambios en conjuntos de medida de Lebesgue cero, por lo que ésta es una densidad para la misma distribución. Con esta densidad, la MLE existe y es igual a $\hat{\theta} = x_{(n)}$ lo que es fácil de demostrar observando que la probabilidad es estrictamente decreciente en $[x_{(n)}, \infty)$ .

2voto

Lev Puntos 2212

Como ya se ha comentado en la respuesta de Anon Ymous La discusión sobre el uso o no de la desigualdad estricta no es pertinente desde el punto de vista de la teoría de las medidas La definición de una $\mathcal U$$ (0,1)$ es la de una medida de probabilidad frente a la medida de Lebesgue sobre $\mathbb R$ que da cualquier intervalo abierto dentro de $[0,1]$ una probabilidad proporcional a su longitud: $$\mathbb{P}_\theta[U\in(a,b)]\propto b-a$$ Esta distribución, al ser absolutamente continua con respecto a la medida de Lebesgue, goza de una densidad $\frac{\text{d}\mathbb{P}_\theta}{\text{d}\lambda}$ que es constante en casi todo el mundo en $[0,\theta]$ . Por lo tanto, $$f_\theta(x)=\frac{1}{\theta}\mathbb I_{(0,\theta)}(x)\quad\text{and}\quad f_\theta(x)=\frac{1}{\theta}\mathbb I_{[0,\theta]}(x)$$ son dos versiones equivalentes de la densidad del mismo distribución. En tales casos, la MLE existirá para algunas versiones y no para otras, lo que requiere la selección de una versión suave de la densidad y, por tanto, de la función de verosimilitud que permita una solución. Esto es obviamente un inconveniente del enfoque MLE. (Una dificultad similar surge con el MAP bayesiano, que además depende de la definición de la medida dominante sobre el espacio de parámetros).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X