6 votos

Propiedades de la distribución posterior de MaxEnt para un troquel con promedio prescrito

Pregunta: después de tirar un dado un gran número de veces y el descubrimiento de que el promedio de los resultados es$4$, ¿qué distribución de probabilidad uno debe asignar a las declaraciones de "el siguiente rollo ser$i$"$i = 1, 2, \dots, 6$?

E. T. Jaynes en el Capítulo 9 del libro "la Teoría de la Probabilidad: La Lógica de la Ciencia", se deriva la siguiente:

si empezamos con la ignorancia del conocimiento, $I_0$, lo que significa que todos los individuales de los rollos son independientes y tienen la misma probabilidad de ocurrir, por lo que $1/6$ para cada uno de los resultados, a continuación, sólo tenemos que encontrar a $(p_1, p_2, \dots, p_6)$ que maximiza $H(p_1, p_2, \dots, p_6) := \sum_{i=1}^6 -p_i \log p_i$$\sum_{i=1}^6 i p_i = 4$.

Utilizando multiplicadores de Lagrange uno puede fácilmente derivar Boltzmann distribución posterior de dicho mueren. Mi posterior distribución, encontró numéricamente, es la siguiente:

$$(p_1, p_2, p_3, p_4, p_5, p_6) \approx (0.10,0.12,0.15,0.17,0.21,0.25).$$

Moreover E.T. Jaynes advocates that such posterior distribution is the only answer consistent with prior knowledge $I_0$, the data $D=\{\text{la media es $4$}\}$ and Cox's theorem. However, I have a few questions about such posterior:

1) Qualitative: does it really do what common sense dictates it should do? Why the posterior doesn't have more mass on $4$?

2) Why the mode of the posterior is $6$ rather than $4$? En virtud de lo que la pérdida de función deben supongo que 4?

3) ¿por Qué el MLE enfoque no logra dar con el modo de la distribución posterior, a pesar de que en la siguiente cita:

Un estimador de máxima verosimilitud coincide con la más probable estimador Bayesiano dado un uniforme antes de la distribución de los parámetros. (Wiki: MLE).


P. S. Haskell código que se usa para encontrar la respuesta:

l = concat $ map (\a -> [(-a), a]) l'
    where
         l' = map (/ 1000) [1.. ]

findExp xs = sum $ zipWith (*) [1..] xs

entropy xs = sum $ map (\a -> - a * (log a)) xs

probs lam = map (/ sum probs') probs'
      where
           probs' = map (\a -> exp (-lam * a)) [1..6]

expectation  = 4.0

condition lam = abs (findExp (probs lam) - expectation) <= 0.05

main = print dist >> print (findExp dist) >> print (entropy dist)
      where
        lamda = head (dropWhile (not . condition) l)
        dist = probs lamda

3voto

Jerry Penner Puntos 583

El algoritmo MaxEnt fuertemente favores de las distribuciones de cerca de uniforme como sea posible. Por lo tanto, dada la restricción de que el promedio es $4$, es más óptimo para añadir más masa a $6$ en lugar de $4$ en orden para la posterior permanecer cerca de uniforme.

Por qué esa tendencia? Tal vez tiene algo que ver con el menor mensajes posibles. Es simple de codificar las distribuciones de cerca el uniforme. Por qué? Así, la distribución uniforme es en el extremo de esto: en lugar de la codificación de $(\frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6})$ uno sale con la codificación de aproximadamente el $[6, \frac{1}{6}]$. I. e. $\frac{1}{6}$ $6$-veces.

Entonces, ¿qué MaxEnt hace es similar a la navaja de Occam/mínimo de la longitud del mensaje y similares: a través del espacio de todas las posibles explicaciones (posteriores) se encuentra la más simple que explica los datos. Y luego te dice que la más sencilla es la más probable: así que si yo fuera a codificar cada una posterior como una cadena binaria, la entropía de cada cadena en sí podría ser renormalised como una cierta probabilidad de medir. El más corto de la cadena es sólo el modo de tal entropía y la probabilidad de medir en todas las cadenas.

Mi intuición llamado para $4$ tener más masa, pero tal vez era sólo una falacia de mi propia intuición: teniendo en cuenta lo anterior razonamiento me parece plausible que adivinar $6$ es la cosa correcta a hacer si soy recompensado sólo cuando me supongo que mezcle correctamente.

Por otro lado, parece que el condicionamiento en la hipótesis más probable es corto de miras: ignora todos los demás ganancias a partir de otras hipótesis que no son probables, pero posibles. Por lo tanto, una muy importante pregunta que surge es: cuando acondicionado en el modo de la entropía y la probabilidad de medida es equivalente a la expectativa con respecto a la entropía de la probabilidad de medir? Sospecho que MaxEnt distribución es simplemente la expectativa de esta entropía y la probabilidad de medir, por lo que siempre.

Como por la pérdida de las funciones que me obligaría a adivinar $4$, es un conocido resultado de que si mi pérdida de la función-es un decir-squared error, que debo adivinar la expectativa de la parte posterior, que es, por supuesto, $4$.

Todavía tengo que conectar esto con el MLE... Así que, para ser continuado/editado.

1voto

user41492 Puntos 6

Una inferencia Bayesiana de las probabilidades posteriores dado antes de uniforme de probabilidades está más cerca de lo que tenía en mente. Porque, en efecto, la probabilidad de obtener un 4 para los dados cargados que tiene una gran probabilidad de que 4 es alta.

El "problema" es que la inferencia de los resultados en una posterior distribución no uniforme incluso para una feria de dados, con un valor promedio de 3.5. Que es por la misma razón: algunos cargan los dados también resultar en un valor promedio de 3.5. Así que incluso como $N \to \infty$ la parte posterior tiene una forma diferente la distribución uniforme que MaxEnt se le puede dar.

Uffink explicó que con mucho más detalle, aquí: http://www.projects.science.uu.nl/igg/jos/mep2def/mep2def.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X