46 votos

Relación entre las distribuciones Binomial y Beta

Soy más programador que estadístico, así que espero que esta pregunta no sea demasiado ingenua.

Ocurre en ejecuciones de programas de muestreo en momentos aleatorios. Si tomo N=10 muestras de tiempo aleatorias del estado del programa, podría ver que la función Foo se ejecuta, por ejemplo, en I=3 de esas muestras. Estoy interesado en lo que eso me dice acerca de la fracción real de tiempo F que Foo está en ejecución.

Entiendo que I tiene una distribución binomial con media F*N. También sé que, dados I y N, F sigue una distribución beta. De hecho he comprobado por programa la relación entre esas dos distribuciones, que es

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

El problema es que no intuyo la relación. No puedo "imaginarme" por qué funciona.

EDIT: Todas las respuestas han sido un reto, especialmente la de @whuber, que todavía tengo que entender, pero poner en orden las estadísticas ha sido muy útil. Sin embargo, me he dado cuenta de que debería haber hecho una pregunta más básica: Dados I y N, ¿cuál es la distribución de F? Todo el mundo ha señalado que es Beta, que yo sabía. Finalmente lo he deducido de Wikipedia ( Conjugado previo ) que parece ser Beta(I+1, N-I+1) . Después de explorarlo con un programa, parece ser la respuesta correcta. Me gustaría saber si estoy equivocado. Y, todavía estoy confundido acerca de la relación entre los dos cdfs se muestra arriba, ¿por qué se suman a 1, y si incluso tienen algo que ver con lo que realmente quería saber.

0 votos

Si "lo que realmente querías saber" es "la fracción real de tiempo que Foo está en ejecución", entonces estás preguntando por un intervalo de confianza binomial o un intervalo de credibilidad binomial (bayesiano).

0 votos

@whuber: Bueno, he utilizado el método de pausa aleatoria para ajustar el rendimiento durante más de 3 décadas, y algunas otras personas lo han descubierto también. Le he dicho a la gente que si alguna condición es verdadera en 2 o más muestras de tiempo aleatorio, entonces eliminarla ahorraría una buena fracción de tiempo. Cómo una buena fracción es lo que he tratado de ser explícito acerca de, suponiendo que no sabemos un Bayesiano anterior. Aquí está la llama general: stackoverflow.com/questions/375913/ y stackoverflow.com/questions/1777556/alternatives-to-gprof/

2 votos

Buena idea. La hipótesis estadística es que la interrupción es independiente del estado de ejecución, lo cual es una hipótesis razonable. A intervalo de confianza binomial es una buena herramienta para representar la incertidumbre. (También puede abrirnos los ojos: en su situación de 3/10, un IC del 95% simétrico de dos caras para la probabilidad real es [6,7%, 65,2%]. En una situación de 2/10, el intervalo es [2,5%, 55,6%]. Se trata de intervalos amplios. Incluso con 2/3, el límite inferior sigue siendo inferior al 10%. La lección aquí es que algo bastante raro puede ocurrir dos veces).

47voto

jldugger Puntos 7490

Considere las estadísticas de pedidos $x_{[0]} \le x_{[1]} \le \cdots \le x_{[n]}$ de $n+1$ extracciones independientes de una distribución uniforme. Dado que los estadísticos de orden tienen distribuciones Beta la posibilidad de que $x_{[k]}$ no supera $p$ viene dada por la integral Beta

$$\Pr[x_{[k]} \le p] = \frac{1}{B(k+1, n-k+1)} \int_0^p{x^k(1-x)^{n-k}dx}.$$

(¿Por qué? He aquí una demostración no rigurosa pero memorable. La posibilidad de que $x_{[k]}$ se encuentra entre $p$ y $p + dp$ es la probabilidad de que de $n+1$ valores uniformes, $k$ de ellos se encuentran entre $0$ y $p$ al menos uno de ellos se encuentra entre $p$ y $p + dp$ y el resto entre $p + dp$ y $1$ . En primer orden en el infinitesimal $dp$ sólo tenemos que considerar el caso en que exactamente un valor (a saber, $x_{[k]}$ se encuentra entre $p$ y $p + dp$ y por lo tanto $n - k$ superan los valores $p + dp$ . Como todos los valores son independientes y uniformes, esta probabilidad es proporcional a $p^k (dp) (1 - p - dp)^{n-k}$ . A primer orden en $dp$ esto es igual a $p^k(1-p)^{n-k}dp$ precisamente el integrando de la distribución Beta. El término $\frac{1}{B(k+1, n-k+1)}$ puede calcularse directamente a partir de este argumento como el coeficiente multinomial ${n+1}\choose{k,1, n-k}$ o derivada indirectamente como la constante normalizadora de la integral).

Por definición, el acontecimiento $x_{[k]} \le p$ es que el $k+1^\text{st}$ no supere $p$ . Equivalentemente, como mínimo $k+1$ de los valores no superan $p$ : esta simple (y espero que obvia) afirmación proporciona la intuición que buscas. La probabilidad de la afirmación equivalente viene dada por la distribución Binomial,

$$\Pr[\text{at least }k+1\text{ of the }x_i \le p] = \sum_{j=k+1}^{n+1}{{n+1}\choose{j}} p^j (1-p)^{n+1-j}.$$

En resumen la integral Beta descompone el cálculo de un suceso en una serie de cálculos: encontrar al menos $k+1$ en el intervalo $[0, p]$ cuya probabilidad calcularíamos normalmente con una CDF binomial, se divide en casos mutuamente excluyentes en los que exactamente $k$ están en el intervalo $[0, x]$ y 1 valor está en el intervalo $[x, x+dx]$ para todos los posibles $x$ , $0 \le x \lt p$ y $dx$ es una longitud infinitesimal. Sumando todas las "ventanas" $[x, x+dx]$ --es decir, integrando-- debe dar la misma probabilidad que la fdc Binomial.

alt text

0 votos

Agradezco el esfuerzo. Voy a tener que estudiar esto de verdad porque no es mi "lengua materna". Además, estoy viendo muchos signos de dólar y cosas de formato. ¿Hay algo que yo no sé acerca de lo que hace que se vea como matemáticas reales?

1 votos

0 votos

Soy un poco lento, pero me estás entendiendo. El denominador de la integral Beta es exactamente lo que se me ocurrió.

14voto

John with waffle Puntos 3472

Mira el pdf del Binomio en función de $x$ : $$f(x) = {n\choose{x}}p^{x}(1-p)^{n-x}$$ y la pdf de Beta en función de $p$ : $$g(p)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1}$$ Probablemente pueda ver que con una elección apropiada (entera) para $a$ y $b$ son los mismos. Hasta donde yo sé, eso es todo lo que hay en esta relación: la forma en que $p$ entra en la pdf binomial resulta que se llama distribución Beta.

1 votos

Sé que parecen casi iguales, pero si sustituyo y por n-x, y si tomo la Beta pdf y sustituyo x por a-1 e y por b-1 obtengo un factor extra de (x+y+1), o n+1. Es decir, ¡(x+y+1)!/x!/y!*p^x*q^y. Eso parece ser suficiente para despistarme.

2 votos

Tal vez alguien pueda dar una respuesta completa, pero en una explicación "intuitiva" siempre podemos obviar constantes (como $n+1$ ) que no dependen de las variables de interés ( $x$ y $p$ ), pero son necesarios para que el pdf sume/integre a 1. Siéntete libre de sustituir los signos de "igualdad" por signos de "proporcional a".

0 votos

Buena observación. Creo que me estoy acercando a un entendimiento. Todavía estoy tratando de ser capaz de decir lo que x te dice acerca de la distribución p, y por qué esos dos cdfs suma a 1.

5voto

Sean Preston Puntos 318

Como ha observado, la distribución Beta describe la distribución del parámetro de probabilidad del ensayo $F$ mientras que la distribución binomial describe la distribución del parámetro de resultado $I$ . Reescribiendo tu pregunta, lo que preguntabas era por qué $$P(F \le \frac {i+1} n)+P(I \le fn-1)=1$$ $$P(Fn \le i+1)+P(I+1 \le fn)=1$$ $$P(Fn \le i+1)=P(fn<I+1)$$ Es decir, la probabilidad de que la observación más uno sea mayor que la expectativa de la observación es la misma que la probabilidad de que la observación más uno sea mayor que la expectativa de la observación.

Admito que esto puede no ayudar a intuir la formulación original del problema, pero tal vez ayude a ver al menos cómo las dos distribuciones utilizan el mismo modelo subyacente de ensayos Bernoulli repetidos para describir el comportamiento de diferentes parámetros.

0 votos

Le agradezco su opinión. Todas las respuestas me están ayudando a reflexionar sobre la pregunta y posiblemente a entender mejor lo que pregunto.

0 votos

He revisado la pregunta, por si quieres echarle un vistazo. Gracias.

1 votos

En cuanto a su revisión: Sí, $F\sim Beta(I+1,N-I+1)$ siempre que los intervalos de muestreo sean lo suficientemente largos como para que cada observación sea independiente e idénticamente distribuida. Tenga en cuenta que si quiere ser bayesiano y especificar una distribución a priori no uniforme para lo que espera que sea la proporción real, puede añadir algo más a ambos parámetros.

5voto

L Reyes Puntos 6

Resumen: Se suele decir que la distribución Beta es una distribución sobre distribuciones. Pero, ¿qué es la media?

En esencia, significa que puede fijar $n,k$ y pensar en $\mathbb P[Bin(n,p)\geqslant k]$ en función de $p$ . Lo que dice el cálculo siguiente es que el valor de $\mathbb P[Bin(n,p)\geqslant k]$ aumenta de $0$ a $1$ cuando sintonices $p$ de $0$ a $1$ . La tasa de aumento en cada $p$ es exactamente $\beta(k,n-k+1)$ en ese $p$ .

enter image description here


Sea $Bin(n,p)$ denota una variable aleatoria binomial con $n$ muestras y la probabilidad de éxito $p$ . Utilizando álgebra básica tenemos

$$\frac d{dp}\mathbb P[Bin(n,p)=i]=n\Big(\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big).$$

También tiene algunas buenas pruebas combinatorias, ¡piénsalo como un ejercicio!

Por lo tanto, tenemos:

$$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=\frac d{dp}\sum_{i=k}^{n}\mathbb P[Bin(n,p)=i]=n\Big(\sum_{i=k}^{n}\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big)$$ que es una serie telescópica y puede simplificarse como

$$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=n\mathbb P[Bin(n-1,p)=k-1]=\frac{n!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}=\beta(k,n-k+1).$$


Observación Para ver una versión interactiva de la trama, consulte este . Puede descargar el cuaderno o simplemente utilizar el enlace Binder.

0 votos

Esto probablemente aborda más directamente el aspecto de la pregunta relativa a los CDF, +1, cuaderno de carpeta definitivamente útil también. Personalmente no me queda claro cómo una identidad diferencial puede tener una interpretación / prueba combinatoria, aunque ¿quizás esté relacionada con una identidad que implique probabilidades condicionales? No lo sé / entiendo, tbh, en cualquier caso, las ideas y los resultados en esta respuesta son definitivamente interesantes.

1voto

Steve Evans Puntos 155

En tierra bayesiana, la distribución Beta es la prior conjugada para el parámetro p de la distribución Binomial.

2 votos

Sí, pero ¿por qué?

0 votos

Es bastante matemático, pero he aquí una respuesta exhaustiva haciadatascience.com/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X