Pregunta: después de tirar un dado un gran número de veces y el descubrimiento de que el promedio de los resultados es$4$, ¿qué distribución de probabilidad uno debe asignar a las declaraciones de "el siguiente rollo ser$i$"$i = 1, 2, \dots, 6$?
E. T. Jaynes en el Capítulo 9 del libro "la Teoría de la Probabilidad: La Lógica de la Ciencia", se deriva la siguiente:
si empezamos con la ignorancia del conocimiento, $I_0$, lo que significa que todos los individuales de los rollos son independientes y tienen la misma probabilidad de ocurrir, por lo que $1/6$ para cada uno de los resultados, a continuación, sólo tenemos que encontrar a $(p_1, p_2, \dots, p_6)$ que maximiza $H(p_1, p_2, \dots, p_6) := \sum_{i=1}^6 -p_i \log p_i$$\sum_{i=1}^6 i p_i = 4$.
Utilizando multiplicadores de Lagrange uno puede fácilmente derivar Boltzmann distribución posterior de dicho mueren. Mi posterior distribución, encontró numéricamente, es la siguiente:
$$(p_1, p_2, p_3, p_4, p_5, p_6) \approx (0.10,0.12,0.15,0.17,0.21,0.25).$$
Moreover E.T. Jaynes advocates that such posterior distribution is the only answer consistent with prior knowledge $I_0$, the data $D=\{\text{la media es $4$}\}$ and Cox's theorem. However, I have a few questions about such posterior:
1) Qualitative: does it really do what common sense dictates it should do? Why the posterior doesn't have more mass on $4$?
2) Why the mode of the posterior is $6$ rather than $4$? En virtud de lo que la pérdida de función deben supongo que 4?
3) ¿por Qué el MLE enfoque no logra dar con el modo de la distribución posterior, a pesar de que en la siguiente cita:
Un estimador de máxima verosimilitud coincide con la más probable estimador Bayesiano dado un uniforme antes de la distribución de los parámetros. (Wiki: MLE).
P. S. Haskell código que se usa para encontrar la respuesta:
l = concat $ map (\a -> [(-a), a]) l'
where
l' = map (/ 1000) [1.. ]
findExp xs = sum $ zipWith (*) [1..] xs
entropy xs = sum $ map (\a -> - a * (log a)) xs
probs lam = map (/ sum probs') probs'
where
probs' = map (\a -> exp (-lam * a)) [1..6]
expectation = 4.0
condition lam = abs (findExp (probs lam) - expectation) <= 0.05
main = print dist >> print (findExp dist) >> print (entropy dist)
where
lamda = head (dropWhile (not . condition) l)
dist = probs lamda