En primer lugar, no existe el previo no informativo . A continuación puede ver las distribuciones posteriores resultantes de cinco priores "no informativos" diferentes (descritos debajo del gráfico) dados diferentes datos. Como se puede ver claramente, la elección de las priores "no informativas" afectó a la distribución posterior, especialmente en los casos en los que la variable los datos en sí no proporcionaban mucha información .
Previsiones "no informativas" para distribución beta comparten la propiedad de que $\alpha = \beta$ lo que conduce a una distribución simétrica, y $\alpha \le 1, \beta \le 1$ las opciones comunes: son a priori uniforme (Bayes-Laplace) ( $\alpha = \beta = 1$ ), Jeffreys prior ( $\alpha = \beta = 1/2$ ), "Neutro" anterior ( $\alpha = \beta = 1/3$ ) propuesto por Kerman (2011), Haldane prior ( $\alpha = \beta = 0$ ), o su aproximación ( $\alpha = \beta = \varepsilon$ con $\varepsilon > 0$ ) (véase también el gran artículo de Wikipedia ).
Los parámetros de la distribución a priori beta suelen considerarse "pseudoconteos" de éxitos ( $\alpha$ ) y fracasos ( $\beta$ ), ya que la distribución posterior de modelo beta-binomial tras observar $y$ éxitos en $n$ ensayos es
$$ \theta \mid y \sim \mathcal{B}(\alpha + y, \beta + n - y) $$
por lo que cuanto mayor sea $\alpha,\beta$ más influyentes son los posteriores. Por tanto, al elegir $\alpha=\beta=1$ se supone que "vio" de antemano un éxito y un fracaso (esto puede o no ser mucho dependiendo de $n$ ).
A primera vista, la prioridad de Haldane parece ser la menos "informativa", ya que conduce a la media posterior, que es exactamente igual a la estimación de máxima verosimilitud.
$$ \frac{\alpha + y}{\alpha + y + \beta + n - y} = y / n $$
Sin embargo, conduce a distribuciones posteriores inadecuadas cuando $y=0$ o $y=n$ Esto es lo que ha llevado a Kernal et al a sugerir su propia a priori que arroja una mediana posterior lo más cercana posible a la estimación de máxima verosimilitud, siendo al mismo tiempo una distribución adecuada.
Hay una serie de argumentos a favor y en contra de cada una de las priores "no informativas" (véase Kerman, 2011; Tuyl et al, 2008). Por ejemplo, como analizan Tuyl et al,
. . hay que tener cuidado con los valores de los parámetros por debajo de $1$ , tanto para priores no informativos como informativos, ya que tales priores concentran su masa cerca de $0$ y/o $1$ y puede suprimir la importancia datos observados.
Por otro lado, el uso de priores uniformes para conjuntos de datos pequeños puede ser muy influyente (piénselo en términos de pseudoconteos). Puede encontrar mucha más información y debate sobre este tema en múltiples documentos y manuales.
Así que lo siento, pero no hay un único "mejor", "más desinformativo" o "único para todos". Cada uno de ellos aporta cierta información al modelo.
Kerman, J. (2011). Neutro no informativo y distribuciones a priori beta y gamma. E Estadística, 5, 1450-1470.
Tuyl, F., Gerlach, R. y Mengersen, K. (2008). A Comparison of Bayes-Laplace, Jeffreys, and Other Priors. The American Statistician, 62(1): 40-44.