6 votos

Encuentre el MLE de la proporción de empleados que caen en $[I_1,I_2]$

Supongamos que los ingresos de los empleados de una empresa siguen una distribución de Pareto como la siguiente: $$f(x)=\dfrac{cA^c}{x^{c+1}}$$ donde $x\geq A>0$ .

Supongamos que se toma una muestra aleatoria de los ingresos $(X_1,X_2,...,X_n)$ de $n$ empleados. Encuentre el MLE de la proporción de empleados cuyos ingresos caen en el intervalo $[I_1,I_2]$ .

Esta es una pregunta que apareció en un examen semestral en mi universidad. Aquí está mi trabajo:

La pregunta en realidad significa que tenemos que encontrar el MLE de $P(I_1\leq X\leq I_2)$ donde $X$ es una v.r. que sigue la distribución de Pareto dada. Resulta que $$P(I_1\leq X\leq I_2)=A^c\left[\dfrac{1}{I_1^c}-\dfrac{1}{I_2^c}\right]$$ asumiendo que $I_1\geq A$ . Si $I_2<A$ entonces $P(I_1\leq X\leq I_2)=0$ . Y si $I_1\leq A$ pero $I_2\geq A$ entonces $$P(I_1\leq X\leq I_2)=P(A\leq X\leq I_2)=1-\dfrac{A^c}{I_2^c}$$

Ahora, por la propiedad de invariancia de la MLE, si $\hat{\theta}$ es la MLE de $\theta$ y $\tau$ es una función cualquiera, entonces $\tau(\hat{\theta})$ es la MLE para $\tau(\theta)$ .

Observe que $P(I_1\leq X\leq I_2)$ es una función de $A$ en cada caso. Por lo tanto, encontrar el MLE de la probabilidad significa encontrar la probabilidad basada en el MLE de $A$ que es $X_{(1)}$ . Por lo tanto, nuestra MLE requerida de la proporción de empleados con ingresos en $[I_1,I_2]$ resulta ser $$X_{(1)}^c\left[\dfrac{1}{I_1^c}-\dfrac{1}{I_2^c}\right]\space\space\space,I_1\geq X_{(1)},I_2\geq X_{(n)}$$$$1-\dfrac{X_{(1)}^c}{I_2^c}\space\space\space,I_1\leq X_{(1)}\leq I_2\leq X_{(n)}$$$$0\space\space\space,X_{(1)}\geq I_2\space\text{or}\space X_{(n)}\leq I_1$$$$1\space\space\space,I_1\leq X_{(1)}<X_{(n)}\leq I_2$$ .

Creo que he estropeado mucho la última parte de la solución en la que tengo que identificar dónde está la probabilidad qué. Incluso si no lo he hecho, no estoy seguro de por qué he seleccionado esta manera. Se agradece la ayuda.

1 votos

Después de haber pasado algún tiempo mirándolo de cerca, no creo que su respuesta sea correcta; no veo cómo $X_{(n)}$ entra en la MLE. Me parece que se puede calcular la MLE de $c$ y $A$ (ninguno de los cuales implica $X_{(n)}$ ) y sustituirlos en los lugares pertinentes para obtener el MLE de la probabilidad..

0 votos

¿Hay alguna razón por la que no hayas escrito la función de probabilidad para los datos observados?

0 votos

Como señaló @probabilityislogic, mi respuesta fue extraña. No tenía sentido, así que la he borrado hasta que pueda arreglarla. (En realidad, no debería haber respondido hasta haber dedicado tiempo a pensarlo bien).

2voto

AdamSane Puntos 1825

A menos que haya cometido un error, estás muy cerca de la respuesta correcta.

No veo cómo $X_{(n)}$ entra en la MLE. Me parece que se puede calcular la MLE de $c$ y $A$ (ninguno de los cuales implica $X_{(n)}$ ) y sustituirlos en los lugares pertinentes para obtener el MLE de la probabilidad. Después de eliminar la referencia a $X_{(n)}$ Creo que los únicos casos relevantes son los tres primeros, y todos ellos pueden escribirse en una expresión razonablemente sencilla para la MLE de la probabilidad requerida:

$\qquad\min((\frac{X_{(1)}}{I_1})^\hat{c},1)-\min((\frac{X_{(1)}}{I_2})^\hat{c},1)$

donde $\hat{c}$ es la MLE habitual para $c$ (que dejaré para que te ocupes tú).

Como ves, aparte de detalles menores ya mencionados, es muy parecido a lo que ya tenías.

0 votos

Una cosa que me parece extraña de esta respuesta es que no implica la proporción observada de empleados con ingresos en el rango. Si se escribe $ \theta=Pr (I_1 \leq X\leq I_2) $ entonces la función de probabilidad para $\theta $ de los datos es $ p (X_1,..., X_n|\theta)\propto \theta^y(1-\theta)^{n-y} $ que tiene el máximo "conocido" de $\hat {\theta}_{mle}=\frac {y}{n} $ . Aquí $ y $ es el número observado de $ X_i $ que cae en el intervalo $ [I_1, I_2] $ .

0 votos

@Glen_b Creo que hay que tener en cuenta $X_{(n)}$ aunque no esté en ningún MLE, sino porque de otro modo no se pueden esculpir las regiones adecuadamente. Por ejemplo, su expresión no muestra lo que ocurre si $X_{(n)}<I_1$ (lo que también implica que la MLE de $P(I_1<X<I_2)=0$ ). Además, si digamos $I_1<X_{(1)}<X_{(n)}<I_2$ entonces podemos concluir con seguridad que dada nuestra muestra, como todos los puntos de la muestra se encuentran en $[I_1,I_2]$ el MLE de la probabilidad es $1$ Lo que no se deduce de lo que has escrito. Después de todo, si todos los puntos están en $[I_1,I_2]$ entonces podemos estimar trivialmente $P(I_1<X<I_2)$ por $1$ .

0 votos

Además, teniendo en cuenta $X_{(1)}<I_1<X_{(n)}<I_2$ tenemos MLE de $P(I_1<X<I_2)=$ MLE de $P(X<I_2)-$ MLE de $P(X<I_1)=\dfrac{X_{(1)}^c}{I_1^c}$ donde $c$ es el mle de $c$ para simplificar. Esto se debe a que la MLE de $P(a<X<b)=X_{(1)}^c(\dfrac{1}{a^c}-\dfrac{1}{b^c})$ y $P(X<I_1)=P(X_{(1)}<X<I_1)$ . Al menos esto es lo que siento. Como ya he dicho, las cosas se están complicando mucho. Tampoco estoy contento con mi trabajo: le falta rigor. No estoy contento al escribir MLE de $P(a<X<b)$ como MLE de $P(X<b)-$ MLE de $P(X<a)$ . No soy feliz al decir $P(X<I_1)=P(X_{(1)}<X<I_1)$ si $X_{(1)}<I_1$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X