14 votos

¿De dónde viene la distribución beta?

Como estoy seguro de que todo el mundo aquí sabe ya, el PDF de la distribución Beta $X \sim B(a,b)$ viene dada por

$f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}$

He buscado por todas partes una explicación de los orígenes de esta fórmula, pero no la encuentro. Todos los artículos que he encontrado sobre la distribución Beta parecen dar esta fórmula, ilustrar algunas de sus formas, y luego pasar directamente a discutir sus momentos y a partir de ahí.

No me gusta utilizar fórmulas matemáticas que no puedo derivar y explicar. Para otras distribuciones (por ejemplo, la gamma o el binomio) hay una derivación clara que puedo aprender y utilizar. Pero no encuentro nada parecido para la distribución Beta.

Así que mi pregunta es: ¿cuál es el origen de esta fórmula? ¿Cómo puede derivarse de los primeros principios en cualquier contexto en el que se desarrolló originalmente?

[Para aclarar, no estoy preguntando sobre cómo usar la distribución Beta en la estadística bayesiana, o qué significa intuitivamente en la práctica (he leído el ejemplo del béisbol). Sólo quiero saber cómo derivar la PDF. Había una pregunta anterior que preguntaba algo similar, pero fue marcado (creo que incorrectamente) como un duplicado de otra pregunta que no solucionó el problema, por lo que no he podido encontrar ninguna ayuda aquí hasta ahora].

EDIT 2017-05-06: Gracias a todos por las preguntas. Creo que una buena explicación de lo que quiero viene de una de las respuestas que obtuve cuando pregunté esto a algunos de mis instructores del curso:

"Supongo que la gente podría derivar la densidad normal como límite de una suma de n cosas dividida por sqrt(n), y se puede derivar la densidad poisson a partir de la idea de que los eventos ocurren a un ritmo constante. Del mismo modo, para derivar la densidad beta, tendrías que tener algún tipo de idea de lo que hace que algo sea una distribución beta independientemente de, y lógicamente antes de, la densidad."

Así que la idea "ab initio" de los comentarios es probablemente la que más se acerca a lo que busco. No soy matemático, pero me siento más cómodo utilizando las matemáticas que puedo derivar. Si los orígenes son demasiado avanzados para mí, que así sea, pero si no, me gustaría entenderlos.

5 votos

¿Derivado de qué? Si el enfoque binomial-conjugado-prioritario no es aceptable, existen varias alternativas aquí (por ejemplo, estadísticas de orden de una variable aleatoria uniforme, proporciones de variables Gamma).

3 votos

Nota: toda la historia de la distribución Beta se proporciona en el increíble Página de Wikipedia en esta distribución, que contiene casi todos los detalles posibles.

1 votos

El pregunta anterior fue marcado como un duplicado de el otro después de que el OP aclarara lo que buscaba en un comentario. whuber hizo allí la misma pregunta que @Geomatt22 hace aquí: "A derivación significa una conexión lógica de algo asumido a algo por establecer. ¿Qué quiere asumir? ?"

21voto

Lev Puntos 2212

enter image description here

Thomas Bayes (1763) derivó la distribución Beta [sin usar este nombre] como la propia primer ejemplo de distribución posterior , anterior a Leonhard Euler (1766) trabajo sobre la integral de Beta señalada por Glen_b por unos años, pero la integral también aparece en Euler (1729 o 1738) [Opera Omnia, I14, 1{24] como una forma de generalizar la función factorial $-$ lo que puede ser la razón por la que la constante Beta normalizadora $B(a,b)$ también se llama la función de Euler $-$ . Davies menciona que Wallis (1616-1703), Newton (1642-1726) y Stirling (1692-1770) trataron casos especiales de la integral incluso antes. Karl Pearson (1895) catalogó por primera vez esta familia de distribuciones como Pearson Tipo I .

Aunque históricamente no aparece en ese orden, una entrada intuitiva a la distribución Beta es a través de la de Fisher $F(p,q)$ que corresponde a la distribución de un ratio $$ \varrho=\hat\sigma^2_1\big/\hat\sigma_2^2\qquad p\hat\sigma_1^2\sim\chi^2_p\quad q\hat\sigma_1^2\sim\chi^2_q$$ donde he utilizado a propósito las notaciones habituales para los estimadores de la varianza, ya que así es como apareció y se motivó esta distribución, para probar la igualdad de dos varianzas. Entonces $$ \frac{p\varrho}{q+p\varrho}\sim B(p/2,q/2) $$ mientras que, por el contrario, si $\omega\sim B(a,b)$ entonces $$ \dfrac{\omega/a}{(1-\omega)/b}\sim F(2a,2b) $$ Encontrar la densidad de un $B(a,b)$ es, por tanto, un paso de cambio de variable: partiendo de la densidad de un $F(p,q)$ distribución, $$ f_{p,q}(x) \propto \{px/q\}^{p/2-1}(1+px/q)^{-(p+q)/2}$$ y considerando el cambio de variable $$y=\frac{\{px/q\}}{\{1+px/q\}}\quad y\in(0,1)$$ que se invierte en $$x=\frac{qy}{p(1-y)}$$ el jacobiano es $$\frac{\text{d}x}{\text{d}y}=\frac{q}{p(1-y)}+\frac{qy}{p(1-y)^2}=\frac{p}{q(1-y)^2}$$ conduce a la densidad de la transformación $$g(y)\propto y^{p/2-1}(1-y)^{q/2+1}(1-y)^{-2}=y^{p/2-1}(1-y)^{q/2+1}$$ [donde todas las constantes de normalización se obtienen imponiendo que la densidad se integre a uno.

4 votos

+1. Conviene señalar que K. Pearson no se limitó a "catalogar" las distribuciones Beta: él derivado a través de las soluciones de una familia de ecuaciones diferenciales inspiradas en una relación que observó entre las ecuaciones en diferencia para la distribución Binomial y las ecuaciones diferenciales para la distribución Normal. La generalización de la ecuación diferencial de la Binomial a la distribución hipergeométrica produjo una generalización de la ecuación diferencial, cuyas soluciones incluían las distribuciones Beta "Tipo I" y "Tipo II". Este es precisamente el tipo de ab initio derivación que parece buscar el OP.

3 votos

Creo que puedo aprender mucho estudiando esta respuesta. Es demasiado avanzada para mí en este momento, pero cuando tenga tiempo volveré e investigaré los temas que mencionas, y luego volveré a intentar entenderla. Muchas gracias. :)

8voto

Aksakal Puntos 11351

Como antiguo físico puedo ver cómo se podría haber derivado. Así es como proceden los físicos:

cuando se encuentran con una integral finita de una función positiva, como función beta : $$B(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}\,dt$$ definen instintivamente una densidad: $$f(s|x,y)=\frac{s^{x-1}(1-s)^{y-1}}{\int_0^1t^{x-1}(1-t)^{y-1}\,dt}=\frac{s^{x-1}(1-s)^{y-1}}{B(x,y)},$$ donde $0<s<1$

Hacen esto a todo tipo de integrales todo el tiempo, tanto que sucede reflexivamente sin siquiera pensar. Llaman a este procedimiento "normalización" o nombres similares. Observe cómo por definición trivialmente la densidad tiene todas las propiedades que quieres que tenga, como que siempre es positiva y suma uno.

La densidad $f(t)$ que he dado arriba es de distribución Beta.

ACTUALIZACIÓN

@whuber pregunta qué tiene de especial la distribución Beta mientras que la lógica anterior podría aplicarse a un número infinito de integrales adecuadas (como señalé en mi respuesta anterior).

La parte especial viene de la distribución binomial . Escribiré su PDF utilizando una notación similar a la de mi beta, no la notación habitual para los parámetros y las variables: $$ f'(x,y|s) = \binom {y+x} x s^x(1-s)^{y}$$

Aquí, $x,y$ - número de éxitos y fracasos, y $s$ - probabilidad de éxito. Puede ver que esto es muy similar al numerador de la distribución Beta. De hecho, si buscas el prior de la distribución Binomial, será la distribución Beta. No es sorprendente también porque el dominio de Beta es de 0 a 1, y eso es lo que se hace en el teorema de Bayes: integrar sobre el parámetro $s$ , que es la probabilidad de éxito en este caso, como se muestra a continuación: $$\hat f(x|X)=\frac{f'(X|s)f(s)}{\int_0^1 f'(X|s)f(s)ds},$$ aquí $f(s)$ - probabilidad (densidad) de probabilidad de éxito dada la configuración previa de la distribución Beta, y $f'(X|s)$ - densidad de este conjunto de datos (es decir, los éxitos y fracasos observados) dada una probabilidad $s$ .

1 votos

@Xi'an OP no parece estar interesado en la historia.

3 votos

"Explicación de los orígenes de esta fórmula... en cualquier contexto en el que se desarrolló originalmente" me suena a historia :-).

1 votos

@whuber, el contexto histórico ya fue tratado en otros posts, sin embargo el OP no cree que responda a su pregunta sobre la derivación a partir de "primeros principios". Creo que mi explicación hace una "derivación" ab initio, aunque no necesariamente de forma histórica

2voto

zundi Puntos 106

La distribución beta puede verse como la distribución de probabilidades en el centro de una distribución jittered

En primer lugar, no se me dan bien las descripciones matemáticas precisas de los conceptos que tengo en la cabeza, pero lo intentaré con un ejemplo sencillo:

Imagina que tienes un arco, muchas flechas y una diana. Digamos además que su tasa de aciertos $\lambda$ (para golpear el objetivo) es precisamente una función de la distancia al centro del objetivo y de la siguiente forma \begin{eqnarray} \lambda=g(x)=\lambda_{max}-(q|x-x_0|)^\frac{1}{q},~q > 0,~0 \leq \lambda \leq \lambda_{max} \end{eqnarray} donde x es la distancia al centro del objetivo ( $x_0$ ). Para $q=1/2$ esto sería una aproximación de primer orden de una gaussiana. Eso significaría que lo más frecuente es dar con el ojo de buey. Del mismo modo, se aproxima a cualquier curva en forma de campana, por ejemplo, resultante de la difusión de partículas brownianas.

Ahora, supongamos además que alguien realmente valiente/estúpido intenta engañarte y desplaza el objetivo en cada disparo. De este modo, hacemos $x_0$ como una variable aleatoria. Si la distribución de los movimientos de esa persona puede ser descrita por una (p-1)-potencia de $g(x)$ (es decir $P(x_0) = C\cdot g(x)^{p-1})$ ), una simple transformación de variables aleatorias (recuerde $P(\lambda)d\lambda=P(x_0)dx_0$ ) conduce a una distribución Beta $\lambda$ :

\begin{eqnarray}P(\lambda) = P(g^{-1}(\lambda)) \biggl|\frac{dg^{-1}(\lambda)}{d\lambda}\biggl| = C' \cdot \lambda^{p-1} \cdot (\lambda_{max} - \lambda)^{q-1}\end{eqnarray}

donde la constante de normalización $C'$ es la función beta. Para la parametrización estándar de la distribución beta estableceríamos $\lambda_{max} = 1$ .

En otras palabras, la distribución beta puede verse como la distribución de probabilidades en el centro de una distribución jittered.

Espero que esta derivación se acerque algo a lo que quería decir su instructor. Observe que las formas funcionales de $g(x)$ y $P(x_0)$ son muy flexibles y abarcan desde las distribuciones en forma de triángulo y de U (véase el ejemplo siguiente) hasta las distribuciones con picos pronunciados.

Para su información: descubrí esto como un efecto secundario en mi trabajo de doctorado e informé sobre ello en mi tesis en el contexto de las curvas de sintonía neuronal no estacionarias que conducen a distribuciones de recuento de picos infladas por cero (bimodal con un modo en cero). Aplicando el concepto descrito anteriormente se obtuvo la distribución de mezcla Beta-Poisson para la acticidad neuronal. Esta distribución puede ajustarse a los datos. Los parámetros ajustados permiten estimar tanto la distribución $g(x)$ así como la distribución del jitter $p(x_0)$ aplicando la lógica inversa. La mezcla Beta-Poisson es una alternativa muy interesante y flexible a la ampliamente utilizada distribución binomial negativa (que es una mezcla Gamma-Poisson) para modelar la sobredispersión. A continuación se muestra un ejemplo de la mezcla "Jitter $\rightarrow$ Beta" - idea en acción:

A jitter model leading to the Beta-Poisson spiking model.

A : Desplazamiento de prueba simulado en 1D, extraído de la distribución de la fluctuación en el recuadro ( $P(jitter)\propto g(x)^{p-1}$ ). El campo de disparo promediado por ensayos (línea negra sólida) es más amplio y tiene una tasa de pico más baja en comparación con la curva de sintonía subyacente sin jitter (línea azul sólida, parámetros utilizados: $\lambda_{max} = 10, p = .6, q=.5$ . B : La distribución resultante de $\lambda$ en $x_0$ a través de N=100 ensayos y la pdf analítica de la distribución Beta. C : Distribución simulada del recuento de picos a partir de un proceso de Poisson con parámetros $\lambda_i$ donde i denota los índices de los ensayos y la distribución Beta-Poisson resultante derivada como se ha esbozado anteriormente. D : Situación análoga en 2D con ángulos de desplazamiento aleatorios que conducen a las mismas estadísticas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X