El modelo jerárquico
Que en realidad no necesita la función de masa de probabilidad marginal $m()$, que en realidad sólo se necesita el marginal momentos de $Y$.
En este tutorial, Casella (1992), está asumiendo el siguiente modelo jerárquico para una respuesta count $Y$:
$$Y|p\sim\mbox{bin}(n,p)$$
y
$$p \sim \mbox{Beta}(\lambda,\lambda)$$
con $n=50$.
Los momentos de la distribución previa
La distribución Beta usualmente tiene dos parámetros, $\alpha$ $\beta$ dicen, y la media es $\alpha/(\alpha+\beta)$.
La varianza es un poco más complicado, consulte el artículo de la Wikipedia sobre la distribución Beta.
En este caso, ambos parámetros son los mismos, $\alpha=\beta=\lambda$, por lo que la distribución previa para $p$ es simétrica, con una media de 1/2.
El hyper-parámetro de $\lambda$ afecta la varianza de la distribución previa de alrededor de 1/2, con los mayores valores de $\lambda$ correspondiente a la menor varianza.
En otras palabras, $\lambda$ determina la precisión (y, por tanto, el informativo) de la anterior.
En concreto, la media y la varianza de la distribución previa se $E(p)=1/2$$\mbox{var}(p)=1/\{4(2\lambda+1)\}$.
También será conveniente posterior a la nota que
$$E[p(1-p)]=\frac12-\frac14-\frac1{4(2\lambda+1)}=\frac{\lambda}{2(2\lambda+1)}$$
Marginal momentos para $Y$
Ahora podemos obtener el marginal momentos de $Y$.
Es una característica de empírico de Bayes, que utiliza la distribución marginal marginal para momentos para estimar los parámetros desconocidos en la previa.
El marginal media de $Y$ es, obviamente,
$$E(Y)=E_p(np)=n/2$$
La marginal de la varianza de $Y$ es la más fácil de obtener por la ley de la varianza total:
\begin{eqnarray}\mbox{var}(Y)&=&E_p \mbox{var}(Y|p) + \mbox{var}_p E(Y|p)\\
&=&E_p[ np(1-p)] + \mbox{var}_p[np]\\
&=&\frac{n\lambda}{2(2\lambda+1)}+\frac{n^2}{4(2\lambda+1)}\\
&=&\frac{n}{4}\frac{2\lambda+n}{2\lambda+1}
\end{eqnarray}
Podría no ser obvio, pero var($Y$) es una función decreciente de $\lambda$.
Tiene un valor máximo de $n^2/4$ $\lambda=0$ y un valor mínimo de $n/4$$\lambda=\infty$.
Hyper-estimación de los parámetros de
Podemos utilizar la varianza observada de $Y$ para estimar el $\lambda$.
Supongamos que observamos los valores de 35 y 27.
La varianza de la muestra de estos dos valores es de 32.
La equiparación de la
$$\mbox{var}(Y)=\frac{n}{4}\frac{2\lambda+n}{2\lambda+1}=32$$
y la solución para $\lambda$ da $\hat\lambda=$15.205.
Posterior Inferencia
Ahora que hemos estimado el hyper-parámetro de $\hat\lambda$, podemos ahora proceder con Bayesiano posterior de la inferencia.
Dada una observación $Y=y_i$, tenemos dos posibles estimadores de la correspondiente $p_i$.
La costumbre estimador de máxima verosimilitud (MLE) es $\hat p_i=y_i/n$, pero también tenemos la estimación previa $p_0=1/2$ pronosticado por el estado de la distribución.
¿Cómo debemos combinar estos dos estimadores?
La precisión de la MLE es determinado por $n$ y la precisión de la previa se determina por $2\lambda$, por lo que el peso de los dos estimadores en consecuencia.
La parte posterior del estimador $p_i$ es el promedio ponderado de los dos estimadores
$$E(p_i|y_i,\lambda)=w_0 p_0 + w_1 \hat{p}_i$$
con pesos iguales a la relativa precisiones
$$w_0=\frac{2\lambda}{2\lambda+n}$$
y
$$w_1=\frac{n}{2\lambda+n}$$
Esto le da a $$E(p_i|y_i,\lambda)=\frac{y_i+\lambda}{n+2
\lambda}$$
y acabamos de plug-in de $\lambda=\hat\lambda$.
Otra forma de interpretar la previa estimador es como este.
Es como si observamos otra $n=2\lambda$ de los casos y observó $\lambda$ éxitos (exactamente la mitad).
Sólo podemos combinar la previa de la muestra con la observada de la muestra para obtener $y_i+\lambda$ éxitos de $n+2\lambda$ de los casos, y que se convierte en la parte posterior de la media.
Interpretación
Aviso de lo que está sucediendo aquí.
Si el estado de la distribución fue difuso, entonces el $p_i$s variarán a partir de una observación a otra, y la varianza de la $y_i$ será relativamente grande.
Si el estado de la distribución estaba muy concentrada, entonces el $p_i$ debe ser muy consistente y el $y_i$ debe ser menos variable.
Por lo que podemos utilizar la varianza de la $y_i$ a adivinar lo que el antes de precisión $2\lambda$ que podría haber sido.
Si el $y_i$ valores son muy estrechas, entonces llegamos a la conclusión de que $\lambda$ es grande y nos dan más peso a la previa distribución, moviendo todo el $\hat p_i$ valores hacia 1/2.
Si el $y_i$ de los valores están muy dispersos, entonces llegamos a la conclusión de que $\lambda$ era pequeño, y le dar menos peso a la anterior, dejando la $\hat p_i$ valores más como ellos.
Esta es la idea esencial de empírico de Bayes, común a todos empírico de Bayes aplicaciones.