6 votos

MLE de distribución multinomial con los valores que faltan

Estoy tratando de resolver un problema y los resultados que obtengo parecer contra-intuitivo.

Escogimos al azar lanzar $n$ bolas en un área dividida en 3 recipientes $b_1,b_2,b_3$. El tamaño de cada uno de los contenedores es proporcional a la probabilidad de que la bola caerá en ella. Vamos a llamar a estas probabilidades $p_1,p_2,p_3$. Esto puede ser descrita por una distribución multinomial.

Ahora digamos que me tiro 12 bolas, y sé cuántas aterrizó en cada bin ($x_1=3,x_2=6,x_3=3$).

Me gustaría estimar el tamaño de la bandeja de las observaciones. Para esto yo uso el de Máxima Verosimilitud. Se puede demostrar que el MLE se $p_1=3/12,p_2=6/12,p_3=3/12$. Esto es bastante intuitivo.

Resulta que el riesgo real en este momento es:

$L(p_1=0.25,p_2=0.5,p_3=0.25|x_1=3,x_2=6,x_3=3)=$

$=\frac{12!}{3!6!3!}0.25^30.6^60.25^6=0.07050$

Ahora, supongamos que yo sabía de antemano que $p_1=p_3$. Cómo tendría que cambiar mi resultado? No - yo todavía obtener los mismos valores de parámetro $p_1=0.25,p_2=0.5,p_3=0.25$.

El giro viene ahora: supongamos que yo no observar las bolas que aterrizó en $b_3$. Si yo sé que 12 bolas fueron arrojados estoy bien, ya puedo calcular el $b_3=n-b_1-b_2=12-3-6=3$. pero, ¿qué pasa si no sé $n$?

Me imagino que en este caso, sería necesario estimar el $x_3$ (o, equivalentemente,$n$). Sin embargo, si uso el MLE, los resultados empiezan a mirar raro. Intuitivamente, yo esperaría que si observo $x_1=3,x_2=6$, y sé que $p_1=p_3$, entonces el MLE probablemente ser $p_1=0.25,p_2=0.5,p_3=0.25,x_3=3$. Sin embargo, claramente no es el máximo, ya que por ejemplo:

$L(p_1=0.24,p_2=0.52,p_3=0.24|x_1=3,x_2=6,x_3=2)=$

$=\frac{11!}{3!6!2!}0.24^30.52^60.24^2=0.07273$

Así que desde este parece que $x_1=3,x_2=6,x_3=2$ es más probable que $x_1=3,x_2=6,x_3=3$, incluso si sé que $p_1=p_3$, lo que parece contrario a la intuición.

Mis preguntas son si mi lógica es el sonido, si mi intuición es engañosa mí y si esta es la manera correcta para la estimación de los parámetros y los datos que faltan.

EDITAR:

Para referencia futura, he encontrado esta muy relevante el papel, que se ocupa de este problema exacto. También se explica el ligero desfase mencionado en whuber la respuesta.

3voto

jldugger Puntos 7490

Una forma de cuadrado de su intuición con ML es reconocer que ML estimaciones son a menudo sesgada. El ML estimación de $N$ le parece sesgado un poco baja.

Sólo hay dos parámetros, $N$$p=p_1$, debido a $p_3=p_1=p$$p_2 = 1-p_1-p_3 = 1-2p$. El registro de la probabilidad de las observaciones $(a,b)$ es

$$\log(\Lambda) = \log\binom{N}{a,b,N-a-b} + (N-b)\log(p) + b\log(1-2p)$$

el que por cualquier $N$ es maximizada en el único cero de su derivada, $p = (N-b)/(2N)$. Es evidente, también, que como una función de la $N$ este es cóncava hacia abajo. Por lo tanto para obtener el MLE para $N$ podemos escanear a través de $N=a+b, a+b+1, \ldots$ hasta alcanzar un máximo. (Hay otras maneras más eficientes, pero esto funciona bastante bien.) Por ejemplo, con $(a,b)=(3,6)$, el máximo se produce por $\widehat{N}=11$ donde $\hat{p} = 5/22$.

Aquí es un histograma de $10^5$ iid atrae de este MLE de una Multinomial$(12; 1/4, 1/2, 1/4)$ distribución de:

Figure 1

El cambio a un pico en $\widehat{N}=11$ es clara. Para mayor $N$ el cambio todavía parece ser hacia la izquierda por una pequeña cantidad. Aquí es un histograma a partir de una simulación con una Multinomial$(120; 1/4, 1/2, 1/4)$ distribución de:

Figure 2

El sesgo se ve como un cambio de $1$ o $2$ hacia la izquierda (el pico es de a $119$ y la media es $118.96$), pero ciertamente no hay un cambio proporcional a $11/12 * 120 = 110$.

Aunque (porque $N$ debe ser integral) algunos cuidados deben ser utilizados en la aplicación de la norma ML de resultados, la formulación matemática de la probabilidad que tiene sentido para no integral a $N$ (a través de funciones Gamma), por lo que probablemente está aceptar el uso de la costumbre ML basada en los intervalos de confianza, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X