Creo que la mejor manera de explicar la noción de probabilidad es considerar un ejemplo concreto. Supongamos que tengo una muestra de observaciones IID extraídas de una distribución Bernoulli con probabilidad de éxito desconocida $p$ : $X_i \sim {\rm Bernoulli}(p)$ , $i = 1, \ldots, n$ por lo que la función de masa de probabilidad conjunta de la muestra es $$\Pr[{\boldsymbol X} = \boldsymbol x \mid p] = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$$ Esta expresión también caracteriza la probabilidad de $p$ dada una muestra observada $\boldsymbol x = (x_1, \ldots, x_n)$ : $$L(p \mid \boldsymbol x) = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$$ Pero si pensamos en $p$ como variable aleatoria, esta probabilidad no es una densidad: $$\int_{p=0}^1 L(p \mid \boldsymbol x) \, dp \ne 1.$$ Sin embargo, lo es, proporcional a una densidad de probabilidad, por lo que decimos que es una probabilidad de $p$ siendo un valor particular dada la muestra - representa, en cierto sentido, la plausibilidad relativa de $p$ siendo algún valor para las observaciones que hicimos.
Por ejemplo, supongamos que $n = 5$ y la muestra fue $\boldsymbol x = (1, 1, 0, 1, 1)$ . Intuitivamente concluiríamos que $p$ es más probable que esté más cerca de $1$ que a $0$ porque observamos más. De hecho, tenemos $$L(p \mid \boldsymbol x) = p^4 (1 - p).$$ Si representamos esta función en $p \in [0,1]$ podemos ver cómo la probabilidad confirma nuestra intuición. Por supuesto, no conocemos el verdadero valor de $p$ -- podría haber sido $p = 0.25$ en lugar de $p = 0.8$ pero la función de probabilidad nos dice que la primera es mucho menos probable que la segunda. Pero si queremos determinar un probabilidad que $p$ se encuentra en un determinado intervalo, tenemos que normalizar la probabilidad: ya que $\int_{p=0}^1 p^4(1-p) \, dp = \frac{1}{30}$ se deduce que para obtener un densidad posterior para $p$ debemos multiplicar por $30$ : $$f_p(p \mid \boldsymbol x) = 30p^4(1-p).$$ De hecho, esta posterior es una distribución beta con parámetros $a = 5, b = 2$ . Ahora las áreas bajo la densidad corresponden a las probabilidades.
Por lo tanto, lo que hemos hecho aquí es aplicar la regla de Bayes: $$f_{\boldsymbol \Theta}(\boldsymbol \theta \mid \boldsymbol x) = \frac{f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta)}{f_{\boldsymbol X}(\boldsymbol x)}.$$ Aquí, $f_{\boldsymbol \Theta}(\boldsymbol \theta)$ es un antes distribución del parámetro(s) $\boldsymbol \theta$ el numerador es la probabilidad $L(\boldsymbol \theta \mid \boldsymbol x) = f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta) = f_{\boldsymbol X, \boldsymbol \Theta}(\boldsymbol x, \boldsymbol \theta)$ que también es la distribución conjunta de $\boldsymbol X, \boldsymbol \Theta$ y el denominador es la densidad marginal (incondicional) de $\boldsymbol X$ que se obtiene integrando la distribución conjunta con respecto a $\boldsymbol \theta$ para encontrar la constante de normalización que hace que la probabilidad sea una densidad de probabilidad con respecto al parámetro(s). En nuestro ejemplo numérico, hemos tomado implícitamente la prioridad para $f_{\boldsymbol \Theta}$ para ser uniforme en $[0,1]$ . Se puede demostrar que, para una muestra Bernoulli, si la prioridad es ${\rm Beta}(a,b)$ la posterior para $f_{\boldsymbol \Theta}$ es también Beta, pero con parámetros $a^* = a+\sum x_i$ , $b^* = b + n - \sum x_i$ . Llamamos a este tipo de previa conjugar (y nos referimos a esto como un par conjugado Bernoulli-Beta).
1 votos
Como elemento de respuesta, os aconsejo la respuesta con enlaces de Stephane Laurent en mathoverflow.net/questions/10971/ . Espero que sea de ayuda.