Desde mi punto de vista de la distribución Normal es útil como antes en la de la media de una distribución Normal, debido a que:
El Normal es el conjugado previo para la media de una distribución Normal. El uso de conjugar los priores realmente puede acelerar la velocidad de cálculo, por ejemplo, EXIGENCIAS de
Es bastante fácil de hacer la distribución Normal informativa, la media y SD son parámetros que son fáciles de instalar ya que es relativley claro cómo afectan a la forma de la distribución, y no informativo, acaba de hacer la SD muy grande y el antes de la aproximación de la distribución uniforme.
Aquí es una tontería, pero la "vida real" es un ejemplo de cómo la Normal podría ser utilizado como un poco informativo de distribución. :)
Agricultor Jöns y la Producción de Leche.
Agricultor Jöns cuenta con un gran número de vacas. Le gustaría saber cuánto leche de una vaca que se espera producir, en promedio, y por lo tanto mide el número de litros de leche que seis vacas producen durante un mes:
milk <- c(651, 374, 601, 401, 767, 709)
Él envía estos datos a su estadístico amigo que le dice que, "Bueno no se que cantidad de datos para trabajar con, pero la estimación podría ser un poco mejor si me dices ¿qué cantidad de leche en su experiencia de una vaca produce por mes en promedio". "No he pensado mucho sobre ello", responde Jöns, "pero tal vez alrededor de 500-600 litros/mes es de costumbre".
El estadístico decide ejecutar un análisis Bayesiano donde milk
se asume una distribución normal:
$$ \mathrm{milk} \sim \mathrm{Norm}(\mu, \sigma) $$
The statistician encodes the information he got from Jöns in the prior on $\mu$ which is pretty easy to do as he choose to use a Normal distribution for this:
$$ \mu \sim \mathrm{Norm}(550, 100) $$
This Normal prior is centered around 550 and has a standard deviation of 100 basically saying that prior to looking at the data the mean is most likely to be in the range 450-650.
As he forgot to ask about the spread of milk production of different cows he puts a flat prior on $\sigma$:
$$ \sigma \sim \mathrm{Unif}(0, 1000) $$
An implementation of this analysis in R using the rjags package would look like this:
library(rjags)
model_string <- "model {
for(i in 1:length(milk)) {
milk[i] ~ dnorm(mu, 1/(sigma * sigma) )
}
mu ~ dnorm(550, 1 / (100*100))
sigma ~ dunif(0, 1000)\n
}"
# The reason for the 1/ (sigma*sigma) 'thing' is because dnorm in JAGS is
# parameterized by precision (1 / SD^2) instead of SD as in R.
model <- jags.model(textConnection(model_string), data = list(milk = milk))
fit <- coda.samples(model, variable.names = c("mu", "sigma"), n.iter = 30000)
summary(fit)
##
## Iterations = 1001:31000
## Thinning interval = 1
## Number of chains = 1
## Sample size per chain = 30000
##
## 1. Empirical mean and standard deviation for each variable,
## plus standard error of the mean:
##
## Mean SD Naive SE Time-series SE
## mu 570 63.3 0.365 0.368
## sigma 208 89.3 0.516 1.173
##
## 2. Quantiles for each variable:
##
## 2.5% 25% 50% 75% 97.5%
## mu 440 530 571 611 693
## sigma 106 150 187 241 435
Looking at the quantiles for the posterior of $\mu$ the statistician tells Jöns that a good guess for the number of liters of milk a cow is expected to produce on average is 571 liters/month and the average is probably not lower than 440 liters/month or higher than 693 liters/month.
What we gained from using a normal distribution as the prior on $\mu$ era ligeramente más fuerte estimación (y espero que mejor). Comparar con el IC del 95% mediante t.test
:
t.test(milk)
##
## One Sample t-test
##
## data: milk
## t = 8.819, df = 5, p-value = 0.0003113
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 413.7 754.0
## sample estimates:
## mean of x
## 583.8