Estoy tratando de resolver un problema y los resultados que obtengo parecer contra-intuitivo.
Escogimos al azar lanzar $n$ bolas en un área dividida en 3 recipientes $b_1,b_2,b_3$. El tamaño de cada uno de los contenedores es proporcional a la probabilidad de que la bola caerá en ella. Vamos a llamar a estas probabilidades $p_1,p_2,p_3$. Esto puede ser descrita por una distribución multinomial.
Ahora digamos que me tiro 12 bolas, y sé cuántas aterrizó en cada bin ($x_1=3,x_2=6,x_3=3$).
Me gustaría estimar el tamaño de la bandeja de las observaciones. Para esto yo uso el de Máxima Verosimilitud. Se puede demostrar que el MLE se $p_1=3/12,p_2=6/12,p_3=3/12$. Esto es bastante intuitivo.
Resulta que el riesgo real en este momento es:
$L(p_1=0.25,p_2=0.5,p_3=0.25|x_1=3,x_2=6,x_3=3)=$
$=\frac{12!}{3!6!3!}0.25^30.6^60.25^6=0.07050$
Ahora, supongamos que yo sabía de antemano que $p_1=p_3$. Cómo tendría que cambiar mi resultado? No - yo todavía obtener los mismos valores de parámetro $p_1=0.25,p_2=0.5,p_3=0.25$.
El giro viene ahora: supongamos que yo no observar las bolas que aterrizó en $b_3$. Si yo sé que 12 bolas fueron arrojados estoy bien, ya puedo calcular el $b_3=n-b_1-b_2=12-3-6=3$. pero, ¿qué pasa si no sé $n$?
Me imagino que en este caso, sería necesario estimar el $x_3$ (o, equivalentemente,$n$). Sin embargo, si uso el MLE, los resultados empiezan a mirar raro. Intuitivamente, yo esperaría que si observo $x_1=3,x_2=6$, y sé que $p_1=p_3$, entonces el MLE probablemente ser $p_1=0.25,p_2=0.5,p_3=0.25,x_3=3$. Sin embargo, claramente no es el máximo, ya que por ejemplo:
$L(p_1=0.24,p_2=0.52,p_3=0.24|x_1=3,x_2=6,x_3=2)=$
$=\frac{11!}{3!6!2!}0.24^30.52^60.24^2=0.07273$
Así que desde este parece que $x_1=3,x_2=6,x_3=2$ es más probable que $x_1=3,x_2=6,x_3=3$, incluso si sé que $p_1=p_3$, lo que parece contrario a la intuición.
Mis preguntas son si mi lógica es el sonido, si mi intuición es engañosa mí y si esta es la manera correcta para la estimación de los parámetros y los datos que faltan.
EDITAR:
Para referencia futura, he encontrado esta muy relevante el papel, que se ocupa de este problema exacto. También se explica el ligero desfase mencionado en whuber la respuesta.