10 votos

Probabilidad vs. Probabilidad

Tengo dificultades con Probabilidades . Entiendo el Teorema de Bayes

$$p(A|B, \mathcal{H}) = \frac{p(B|A, \mathcal{H}) p(A|\mathcal{H})}{p(B|\mathcal{H})}$$

que se puede deducir directamente de la aplicación de $p(A,B) = p(B) \cdot p(A|B) = p (A) p(B|A) = p(B,A)$ . Así, en mi interpretación, el $p(\cdot)$ Las funciones en el Teorema de Bayes son de alguna manera todas las probabilidades, ya sean marginales o condicionales. Así que en realidad he pensado que la Probabilidad como concepto era más bien una visión frecuentista de la probabilidad inversa.

Sin embargo, ahora he visto repetidamente declaraciones en Bayesianos". libros que dicen que la probabilidad no es una distribución de probabilidad. Leyendo ayer el libro de MacKay, me tropecé con la siguiente afirmación

"[...] es importante señalar que los términos verosimilitud y probabilidad no son sinónimos. La cantidad $P(n_b|u,N)$ es una función de ambos $n_B$ y $u$ . Para las instalaciones fijas $u$ , $P(n_b|u,N)$ define una probabilidad sobre $n_B$ , para los fijos $n_B$ , $P(n_B|u,N)$ define la similitud de $u$ ."

  • Lo entiendo de la siguiente manera: $p(A|B)$ es una probabilidad de $A$ bajo un determinado $B$ Por lo tanto, una función $\text{probability} : \mathcal{A}\to [0,1]$ . Pero considerando un valor dado $a \in A$ y evaluar $p(A=a|B)$ La dependencia de los diferentes $b\in\mathcal{B}$ en realidad estamos utilizando una función diferente $L : \mathcal{B}\to[0,1]$ .

  • ¿Es correcta esta interpretación?

  • ¿Se puede decir entonces que los métodos de máxima verosimilitud podrían estar motivados por el teorema bayesiano, en el que se elige que la prioridad sea constante?

1 votos

Como elemento de respuesta, os aconsejo la respuesta con enlaces de Stephane Laurent en mathoverflow.net/questions/10971/ . Espero que sea de ayuda.

11voto

heropup Puntos 2278

Creo que la mejor manera de explicar la noción de probabilidad es considerar un ejemplo concreto. Supongamos que tengo una muestra de observaciones IID extraídas de una distribución Bernoulli con probabilidad de éxito desconocida $p$ : $X_i \sim {\rm Bernoulli}(p)$ , $i = 1, \ldots, n$ por lo que la función de masa de probabilidad conjunta de la muestra es $$\Pr[{\boldsymbol X} = \boldsymbol x \mid p] = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$$ Esta expresión también caracteriza la probabilidad de $p$ dada una muestra observada $\boldsymbol x = (x_1, \ldots, x_n)$ : $$L(p \mid \boldsymbol x) = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$$ Pero si pensamos en $p$ como variable aleatoria, esta probabilidad no es una densidad: $$\int_{p=0}^1 L(p \mid \boldsymbol x) \, dp \ne 1.$$ Sin embargo, lo es, proporcional a una densidad de probabilidad, por lo que decimos que es una probabilidad de $p$ siendo un valor particular dada la muestra - representa, en cierto sentido, la plausibilidad relativa de $p$ siendo algún valor para las observaciones que hicimos.

Por ejemplo, supongamos que $n = 5$ y la muestra fue $\boldsymbol x = (1, 1, 0, 1, 1)$ . Intuitivamente concluiríamos que $p$ es más probable que esté más cerca de $1$ que a $0$ porque observamos más. De hecho, tenemos $$L(p \mid \boldsymbol x) = p^4 (1 - p).$$ Si representamos esta función en $p \in [0,1]$ podemos ver cómo la probabilidad confirma nuestra intuición. Por supuesto, no conocemos el verdadero valor de $p$ -- podría haber sido $p = 0.25$ en lugar de $p = 0.8$ pero la función de probabilidad nos dice que la primera es mucho menos probable que la segunda. Pero si queremos determinar un probabilidad que $p$ se encuentra en un determinado intervalo, tenemos que normalizar la probabilidad: ya que $\int_{p=0}^1 p^4(1-p) \, dp = \frac{1}{30}$ se deduce que para obtener un densidad posterior para $p$ debemos multiplicar por $30$ : $$f_p(p \mid \boldsymbol x) = 30p^4(1-p).$$ De hecho, esta posterior es una distribución beta con parámetros $a = 5, b = 2$ . Ahora las áreas bajo la densidad corresponden a las probabilidades.

Por lo tanto, lo que hemos hecho aquí es aplicar la regla de Bayes: $$f_{\boldsymbol \Theta}(\boldsymbol \theta \mid \boldsymbol x) = \frac{f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta)}{f_{\boldsymbol X}(\boldsymbol x)}.$$ Aquí, $f_{\boldsymbol \Theta}(\boldsymbol \theta)$ es un antes distribución del parámetro(s) $\boldsymbol \theta$ el numerador es la probabilidad $L(\boldsymbol \theta \mid \boldsymbol x) = f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta) = f_{\boldsymbol X, \boldsymbol \Theta}(\boldsymbol x, \boldsymbol \theta)$ que también es la distribución conjunta de $\boldsymbol X, \boldsymbol \Theta$ y el denominador es la densidad marginal (incondicional) de $\boldsymbol X$ que se obtiene integrando la distribución conjunta con respecto a $\boldsymbol \theta$ para encontrar la constante de normalización que hace que la probabilidad sea una densidad de probabilidad con respecto al parámetro(s). En nuestro ejemplo numérico, hemos tomado implícitamente la prioridad para $f_{\boldsymbol \Theta}$ para ser uniforme en $[0,1]$ . Se puede demostrar que, para una muestra Bernoulli, si la prioridad es ${\rm Beta}(a,b)$ la posterior para $f_{\boldsymbol \Theta}$ es también Beta, pero con parámetros $a^* = a+\sum x_i$ , $b^* = b + n - \sum x_i$ . Llamamos a este tipo de previa conjugar (y nos referimos a esto como un par conjugado Bernoulli-Beta).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X