El función de probabilidad se define fuera de $-$ o antes de $-$ el paradigma que se utiliza para la inferencia estadística, en función del parámetro $\theta$ que depende de $-$ o está indexado por $-$ las observaciones $x$ disponible para esta inferencia. Y también implícitamente por la familia de modelos de probabilidad elegida para representar la variabilidad o aleatoriedad en los datos. Para un valor del par $(\theta,x)$ es igual a la densidad del modelo en $x$ cuando se indexa con el parámetro $\theta$ . Lo que a menudo se traduce burdamente como la "probabilidad de los datos".
Para citar fuentes más autorizadas e históricas que una respuesta anterior en este foro,
"Podemos discutir la probabilidad de ocurrencia de cantidades que pueden observadas en relación con cualquier hipótesis que pueda sugerirse para explicar estas observaciones. No podemos saber nada de la probabilidad de las hipótesis . . . Podemos determinar la probabilidad de las hipótesis . . . mediante el cálculo a partir de las observaciones: . . hablar de la probabilidad . . de una cantidad observable no tiene sentido". R.A. Fisher, Sobre el "error probable" de un coeficiente de correlación deducido de una muestra pequeña . Metrón 1, 1921, p.25
y
"Lo que podemos encontrar a partir de una muestra es la probabilidad de cualquier valor particular de valor de r, si definimos la probabilidad como una cantidad proporcional a la probabilidad de que, a partir de una población que tiene el valor particular de r, se obtenga una muestra que tenga el valor observado de r". R.A. Fisher, Sobre el "error probable" de un coeficiente de correlación deducido de una muestra pequeña . Metrón 1, 1921, p.24
que menciona una proporcionalidad que Jeffreys (y yo) consideramos superflua:
" probabilidad, un término conveniente introducido por el profesor R.A. Fisher, aunque en su uso a veces se multiplica por un factor constante. Es la probabilidad de las observaciones dada la información original información original y la hipótesis en discusión". H. Jeffreys, Teoría de la probabilidad , 1939, p.28
Por citar sólo una frase de la excelente entrada histórica al tema por John Aldrich (Statistical Science, 1997):
"Fisher (1921, p. 24) reformuló lo que había escrito en 1912 sobre probabilidad inversa, distinguiendo entre las operaciones matemáticas operaciones matemáticas que se pueden realizar sobre las densidades de probabilidad y probabilidad: la probabilidad no es un ''elemento diferencial'', no puede integrarse". J. Aldrich, R. A. Fisher y la creación de la máxima Máxima Verosimilitud 1912 - 1922 , 1997 , p.9
Al adoptar un enfoque bayesiano, la función de probabilidad no cambia de forma ni de naturaleza. Sigue siendo la densidad en $x$ indexado por $\theta$ . La característica adicional es que, como $\theta$ también está dotada de un modelo probabilístico, la distribución a priori, la densidad a $x$ indexado por $\theta$ también puede interpretarse como un condicional densidad, condicionada a la realización de $\theta$ En una modelización bayesiana, una realización de $\theta$ se produce a partir del previo, con la densidad $\pi(\cdot)$ , entonces una realización de $X$ , $x$ se produce a partir de la distribución con densidad $L(\theta|\cdot)$ , indexado por $\theta$ . En otras palabras, y con respecto a la medida dominante adecuada, el par $(\theta,x)$ tiene una densidad conjunta $$\pi(\theta) \times L(\theta|x)$$ de la que se deriva la densidad posterior de $\theta$ es decir, el condicional densidad de $\theta$ condicionada a la realización de $x$ como $$\pi(\theta|x) \propto \pi(\theta) \times L(\theta|x)$$ también expresado como $$\text{posterior} \propto \text{prior} \times \text{likelihood}$$ encontrado desde Jeffreys (1939) .
Nota: Me parece que la distinción hecha en la introducción de la página de Wikipedia sobre las funciones de probabilidad entre las verosimilitudes frecuentista y bayesiana es confusa e innecesaria, o simplemente errónea, ya que la gran mayoría de los estadísticos bayesianos actuales no utilizan la verosimilitud como sustituto de la probabilidad posterior. Asimismo, la "diferencia" señalada en la página de Wikipedia sobre el Teorema de Bayes suena más confuso que otra cosa, ya que este teorema es un enunciado de probabilidad sobre un cambio de condicionamiento, independiente del paradigma o del significado de un enunciado de probabilidad. ( En mi opinión (¡es más una definición que un teorema!)