Supongamos que los ingresos de los empleados de una empresa siguen una distribución de Pareto como la siguiente: $$f(x)=\dfrac{cA^c}{x^{c+1}}$$ donde $x\geq A>0$ .
Supongamos que se toma una muestra aleatoria de los ingresos $(X_1,X_2,...,X_n)$ de $n$ empleados. Encuentre el MLE de la proporción de empleados cuyos ingresos caen en el intervalo $[I_1,I_2]$ .
Esta es una pregunta que apareció en un examen semestral en mi universidad. Aquí está mi trabajo:
La pregunta en realidad significa que tenemos que encontrar el MLE de $P(I_1\leq X\leq I_2)$ donde $X$ es una v.r. que sigue la distribución de Pareto dada. Resulta que $$P(I_1\leq X\leq I_2)=A^c\left[\dfrac{1}{I_1^c}-\dfrac{1}{I_2^c}\right]$$ asumiendo que $I_1\geq A$ . Si $I_2<A$ entonces $P(I_1\leq X\leq I_2)=0$ . Y si $I_1\leq A$ pero $I_2\geq A$ entonces $$P(I_1\leq X\leq I_2)=P(A\leq X\leq I_2)=1-\dfrac{A^c}{I_2^c}$$
Ahora, por la propiedad de invariancia de la MLE, si $\hat{\theta}$ es la MLE de $\theta$ y $\tau$ es una función cualquiera, entonces $\tau(\hat{\theta})$ es la MLE para $\tau(\theta)$ .
Observe que $P(I_1\leq X\leq I_2)$ es una función de $A$ en cada caso. Por lo tanto, encontrar el MLE de la probabilidad significa encontrar la probabilidad basada en el MLE de $A$ que es $X_{(1)}$ . Por lo tanto, nuestra MLE requerida de la proporción de empleados con ingresos en $[I_1,I_2]$ resulta ser $$X_{(1)}^c\left[\dfrac{1}{I_1^c}-\dfrac{1}{I_2^c}\right]\space\space\space,I_1\geq X_{(1)},I_2\geq X_{(n)}$$$$1-\dfrac{X_{(1)}^c}{I_2^c}\space\space\space,I_1\leq X_{(1)}\leq I_2\leq X_{(n)}$$$$0\space\space\space,X_{(1)}\geq I_2\space\text{or}\space X_{(n)}\leq I_1$$$$1\space\space\space,I_1\leq X_{(1)}<X_{(n)}\leq I_2$$ .
Creo que he estropeado mucho la última parte de la solución en la que tengo que identificar dónde está la probabilidad qué. Incluso si no lo he hecho, no estoy seguro de por qué he seleccionado esta manera. Se agradece la ayuda.
1 votos
Después de haber pasado algún tiempo mirándolo de cerca, no creo que su respuesta sea correcta; no veo cómo $X_{(n)}$ entra en la MLE. Me parece que se puede calcular la MLE de $c$ y $A$ (ninguno de los cuales implica $X_{(n)}$ ) y sustituirlos en los lugares pertinentes para obtener el MLE de la probabilidad..
0 votos
¿Hay alguna razón por la que no hayas escrito la función de probabilidad para los datos observados?
0 votos
Como señaló @probabilityislogic, mi respuesta fue extraña. No tenía sentido, así que la he borrado hasta que pueda arreglarla. (En realidad, no debería haber respondido hasta haber dedicado tiempo a pensarlo bien).
0 votos
No he entendido el comentario de @probabilityislogic. ¿Podríais alguno de vosotros explicar a qué se refería?
0 votos
Lo que quiero decir es que estás intentando encontrar la estimación de máxima probabilidad de "algo". El primer paso es escribir la función que vas a maximizar. Todavía no lo has hecho. ¿Cuál es la probabilidad de observar el conjunto de datos que realmente has observado $(X_1, ...X_n) $ ?
0 votos
Bien, he obtenido los MLEs de $A$ y $c$ utilizando la función de probabilidad, por lo que sería un error decir que no lo anoté. Pero de todos modos, $L(A,c|X)=\dfrac{c^nA^{nc}}{(\prod(x_i)^{c+1}}$ . En realidad quiero incorporar de alguna manera $I_1$ y $I_2$ en esta función de probabilidad. No sé si estoy hablando con sentido.
0 votos
Así que $L(A,c|X)$ se ve que se maximiza cuando $A=X_{(1)}$ y $\hat{c}$ es la MLE de $c$ .
0 votos
El argumento de Glen_b me parece que tiene sentido. La estimación de máxima verosimilitud de esta probabilidad debería ser, en efecto, la probabilidad del suceso cuando los parámetros se sustituyen por sus estimaciones de máxima verosimilitud, lo cual, como parece haber notado el autor, no es más que una aplicación de la propiedad de invariancia.
0 votos
Todo esto es muy bonito, pero en realidad, el problema surge cuando intentas particionar tus datos como $X_{(1)}<I_1$ o $X_{(n)}>I_2$ porque todos ellos dan respuestas diferentes. Si no se tiene en cuenta $X_{(n)}$ ¿cómo se explica que la MLE de $P(I_1<X<I_2)=0$ si $X_{(n)}<I_1$ ?
0 votos
Landon Carter - el problema que mencionas no se produce al hacer inferencia sobre "la población" - también la respuesta borrada dada por @glen_b parece correcta (no estoy seguro de por qué se apresuró a borrarla). Si $ X_{(n)}<I_1$ esto no implica que la probabilidad sea cero. Piensa en extraer otra muestra $ X_{n+1} $ - su enfoque asume que es imposible que $ X_{n+1}> X_{(n)} $ . Esencialmente, se confunde una propiedad de la muestra con la correspondiente cantidad de la población.
0 votos
@glen_b - el comentario que hice a tu respuesta no se basa en la "probabilidad completa", sino que se basa en sólo observar si $ X_1$ en el intervalo dado.
0 votos
@probabilityislogic Todavía no he resuelto todo lo que me disgustaba en mi respuesta, pero no tengo inconveniente en deshacer el borrado en base a que como pregunta de autoaprendizaje está actuando como un esquema más que como una solución completa.