Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

572 votos

¿Cuál es la intuición de la distribución beta?

Descargo de responsabilidad: no soy estadístico, sino ingeniero de software. La mayor parte de mis conocimientos en estadística provienen de la autoformación, por lo que todavía tengo muchas lagunas en la comprensión de conceptos que pueden parecer triviales para otras personas aquí. Así que estaría muy agradecido si las respuestas incluyeran términos menos específicos y más explicaciones. Imagina que estás hablando con tu abuela :)

Estoy tratando de captar la naturaleza de distribución beta - para qué debe utilizarse y cómo interpretarlo en cada caso. Si estuviéramos hablando, por ejemplo, de una distribución normal, podríamos describirla como la hora de llegada de un tren: lo más frecuente es que llegue justo a tiempo, un poco menos frecuente es que llegue 1 minuto antes o 1 minuto después y muy raramente llega con una diferencia de 20 minutos respecto a la media. La distribución uniforme describe, en particular, la probabilidad de cada billete en la lotería. La distribución binomial puede describirse con el lanzamiento de una moneda, etc. Pero, ¿existe tal explicación intuitiva de distribución beta ?

Digamos, α=.99 y β=.5 . Distribución Beta B(α,β) en este caso tiene este aspecto (generado en R):

enter image description here

Pero, ¿qué significa realmente? El eje Y es obviamente una densidad de probabilidad, pero ¿qué hay en el eje X?

Agradecería mucho cualquier explicación, ya sea con este ejemplo o con cualquier otro.

19 votos

El eje y no es una probabilidad (lo cual es obvio, porque por definición una probabilidad no puede estar fuera del intervalo [0,1] pero esta trama se extiende hasta 50 y -en principio- para ). Es un densidad de probabilidad una probabilidad por unidad de x (y usted ha descrito x como tasa).

8 votos

@whuber: sí, entiendo lo que es el PDF - eso fue sólo un error en mi descripción. ¡Gracias por una nota válida!

1 votos

Intentaré encontrar la referencia pero conozco algunas de las formas más extrañas para la distribución Beta generalizada con forma a+(ba)Beta(α1,α2) tienen aplicaciones como la física. Además, puede ajustarse a los datos de los expertos (mínimo, moda, máximo) en entornos con pocos datos y suele ser mejor que utilizar una distribución triangular (desgraciadamente utilizada a menudo por las IE).

825voto

mdahlman Puntos 5700

La versión corta es que la distribución Beta puede entenderse como la representación de una distribución de probabilidades es decir, representa todos los valores posibles de una probabilidad cuando no sabemos cuál es esa probabilidad. Aquí está mi explicación intuitiva favorita de esto:

Cualquiera que siga el béisbol está familiarizado con promedios de bateo -simplemente el número de veces que un jugador recibe un batazo de base dividido por el número de veces que sube a batear (por lo que es sólo un porcentaje entre 0 y 1 ). .266 se considera en general una media de bateo, mientras que .300 se considera excelente.

Imagina que tenemos un jugador de béisbol y queremos predecir cuál será su media de bateo a lo largo de la temporada. Podríamos decir que podemos utilizar su promedio de bateo hasta ahora, pero esto será una medida muy pobre al principio de la temporada. Si un jugador va a batear una vez y consigue un sencillo, su promedio de bateo es brevemente 1.000 , mientras que si se poncha, su promedio de bateo es 0.000 . No es mucho mejor si subes a batear cinco o seis veces: podrías tener una racha de suerte y obtener un promedio de 1.000 o una racha de mala suerte y obtener una media de 0 Ninguno de los dos es un predictor remotamente bueno de cómo batearás esa temporada.

¿Por qué el promedio de bateo en los primeros golpes no es un buen predictor de su promedio de bateo final? Cuando el primer at-bat de un jugador es un strikeout, ¿por qué nadie predice que nunca conseguirá un hit en toda la temporada? Porque vamos con expectativas previas. Sabemos que en la historia, la mayoría de los promedios de bateo durante una temporada han oscilado entre algo así como .215 y .360 con algunas excepciones extremadamente raras en ambos lados. Sabemos que si un jugador consigue unos cuantos strikeouts seguidos al principio, eso puede indicar que acabará siendo un poco peor que la media, pero sabemos que probablemente no se desviará de ese rango.

Dado nuestro problema de la media de bateo, que se puede representar con un distribución binomial (una serie de éxitos y fracasos), la mejor manera de representar estas expectativas previas (lo que en estadística llamamos simplemente un antes ) es con la distribución Beta - está diciendo, antes de que hayamos visto al jugador hacer su primer swing, lo que esperamos aproximadamente que sea su promedio de bateo. El dominio de la distribución Beta es (0, 1) , al igual que una probabilidad, por lo que ya sabemos que estamos en el camino correcto, pero la idoneidad de la Beta para esta tarea va mucho más allá.

Esperamos que la media de bateo de la temporada del jugador sea probablemente de alrededor de .27 pero que razonablemente podría oscilar entre .21 a .35 . Esto se puede representar con una distribución Beta con parámetros α=81 y β=219 :

curve(dbeta(x, 81, 219))

Beta(81, 219)

He ideado estos parámetros por dos razones:

  • La media es αα+β=8181+219=.270
  • Como se puede ver en el gráfico, esta distribución se encuentra casi por completo dentro de (.2, .35) - el rango razonable para un promedio de bateo.

Usted ha preguntado qué representa el eje x en un gráfico de densidad de distribución beta: aquí representa su promedio de bateo. Observe que, en este caso, no sólo el eje Y es una probabilidad (o, más exactamente, una densidad de probabilidad), sino que el eje X también lo es (al fin y al cabo, la media de bateo no es más que una probabilidad de acierto). La distribución Beta representa una distribución de probabilidad de probabilidades .

Pero he aquí por qué la distribución Beta es tan apropiada. Imagina que el jugador recibe un solo golpe. Su récord de la temporada es ahora 1 hit; 1 at bat . Entonces tenemos que actualización nuestras probabilidades- queremos desplazar toda esta curva un poco para reflejar nuestra nueva información. Aunque las matemáticas para demostrar esto son un poco complicadas ( se muestra aquí ), el resultado es muy simple . La nueva distribución Beta será:

Beta(α0+hits,β0+misses)

Dónde α0 y β0 son los parámetros con los que empezamos, es decir, 81 y 219. Así, en este caso, α ha aumentado en 1 (su único golpe), mientras que β no ha aumentado en absoluto (todavía no hay fallos). Eso significa que nuestra nueva distribución es Beta(81+1,219) o:

curve(dbeta(x, 82, 219))

enter image description here

Fíjese en que apenas ha cambiado, ¡el cambio es realmente invisible a simple vista! (Eso es porque un golpe no significa realmente nada).

Sin embargo, cuanto más batee el jugador a lo largo de la temporada, más se desplazará la curva para adaptarse a las nuevas pruebas y, además, más se estrechará por el hecho de que tenemos más pruebas. Digamos que a mitad de la temporada ha subido a batear 300 veces, bateando 100 de esas veces. La nueva distribución sería Beta(81+100,219+200) o:

curve(dbeta(x, 81+100, 219+200))

enter image description here

Obsérvese que la curva es ahora más fina y está desplazada hacia la derecha (mayor promedio de bateo) de lo que solía ser: tenemos una mejor idea de cuál es el promedio de bateo del jugador.

Uno de los resultados más interesantes de esta fórmula es el valor esperado de la distribución Beta resultante, que es básicamente su nueva estimación. Recordemos que el valor esperado de la distribución Beta es αα+β . Así, después de 100 aciertos de 300 real en bateo, el valor esperado de la nueva distribución Beta es 81+10081+100+219+200=.303 - Obsérvese que es inferior a la estimación ingenua de 100100+200=.333 pero mayor que la estimación con la que empezó la temporada ( 8181+219=.270 ). Puedes notar que esta fórmula es equivalente a añadir una "ventaja" al número de hits y no hits de un jugador - estás diciendo "empieza la temporada con 81 hits y 219 no hits en su historial").

Así, la distribución Beta es la mejor para representar una distribución probabilística de probabilidades : el caso en el que no sabemos de antemano cuál es la probabilidad, pero tenemos algunas conjeturas razonables.

6 votos

@ffriend: Me alegro de que te haya servido, espero que sigas el béisbol (si no, me pregunto si es comprensible).

13 votos

Aquí hay un ejemplo similar de John Cook utilizando clasificaciones binarias de vendedores de Amazon con diferente número de reseñas. La discusión sobre la elección de un previo en los comentarios es particularmente esclarecedora: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments

4 votos

Hay que señalar que no es necesario que la prioritaria esté distribuida en beta (a menos que se opte por la prioritaria de Jeffreys, α0=β0=1/2 - sólo la probabilidad debe tener una distribución beta.

56voto

kyle Puntos 274

A Distribución Beta se utiliza para modelar cosas que tienen un rango limitado, como 0 a 1.

Un ejemplo es la probabilidad de éxito en un experimento que sólo tiene dos resultados, como el éxito y el fracaso. Si realizas un número limitado de experimentos y algunos tienen éxito, puedes representar lo que te dice una distribución beta.

Otro ejemplo es estadísticas de pedidos . Por ejemplo, si generas varios (digamos 4) números aleatorios uniformes 0,1, y los ordenas, ¿cuál es la distribución del tercero?

Los utilizo para entender el diagnóstico del rendimiento del software por muestreo. Si se detiene un programa al azar n veces, y s de esas veces en las que ves que hace algo de lo que podrías deshacerte, y s>1 entonces la fracción de tiempo que se ahorra al hacerlo está representada por Beta(s+1,(ns)+1) y el factor de aceleración tiene un BetaPrime distribución.

Más sobre eso...

52voto

Ηλίας Puntos 109

La distribución Beta también aparece como un estadístico de orden para una muestra aleatoria de distribuciones uniformes independientes en (0,1) .

Precisamente, dejemos U1 , , Un sea n variables aleatorias independientes, cada una con la distribución uniforme en (0,1) . Denote por U(1) , , U(n) las estadísticas de orden de la muestra aleatoria (U1,,Un) definido por la ordenación de los valores de U1 , , Un en orden creciente. En particular U(1)=min y U_{(n)}=\max(U_i) . Entonces se puede demostrar que U_{(k)} \sim \textrm{Beta}(k, n+1-k) por cada k=1,\ldots,n .

Este resultado muestra que las distribuciones Beta aparecen de forma natural en las matemáticas, y tiene algunas aplicaciones interesantes en matemáticas.

38voto

andynormancx Puntos 234

Hay dos motivaciones principales:

En primer lugar, la distribución beta es anterior conjugada a la distribución Bernoulli. Eso significa que si se tiene una probabilidad desconocida como el sesgo de una moneda que se está estimando mediante repetidos lanzamientos de monedas, entonces la probabilidad inducida sobre el sesgo desconocido por una secuencia de lanzamientos de monedas está distribuida en beta.

En segundo lugar, una consecuencia de que la distribución beta sea una familia exponencial es que es la distribución de máxima entropía para un conjunto de estadísticas suficientes. En el caso de la distribución beta estos estadísticos son \log(x) y \log(1-x) para x en [0,1] . Esto significa que si sólo se conserva la medida media de estos estadísticos suficientes para un conjunto de muestras x_1, \dots, x_n La hipótesis mínima que se puede hacer sobre la distribución de las muestras es que se trata de una distribución beta.

La distribución beta no es especial para modelar en general cosas sobre [0,1] ya que muchas distribuciones pueden ser truncadas a ese soporte y son más aplicables en muchos casos.

30voto

carrie bradley Puntos 103

enter image description here

Supongamos que un vendedor de un sitio web de comercio electrónico recibe 500 valoraciones, de las cuales 400 son buenas y 100 son malas.

Pensamos en esto como el resultado de un experimento Bernoulli de longitud 500 que condujo a 400 aciertos (1 = bueno) mientras que la probabilidad subyacente p es desconocido.

La calidad ingenua en términos de valoraciones del vendedor es del 80% porque 0,8 = 400 / 500. Pero la "verdadera" calidad en términos de valoraciones no la conocemos.

Teóricamente también un vendedor con "verdadera" calidad de p=77\% podría haber terminado con 400 buenas de 500 valoraciones.

El gráfico de barras puntiagudas de la imagen representa la frecuencia con la que ocurre en una simulación que para un supuesto "verdadero" p 400 de 500 valoraciones fueron buenas. El gráfico de barras es la densidad del histograma del resultado de la simulación.

Y como puede ver, la curva de densidad de la distribución beta para \alpha=400+1 y \beta=100+1 (naranja) rodea estrechamente el gráfico de barras (la densidad del histograma para la simulación).

Así, la distribución beta define esencialmente la probabilidad de éxito de un experimento Bernoulli p dado el resultado del experimento.

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/

3 votos

Gracias por su contribución. Sin embargo, tengo una duda: aunque la leyenda del histograma dice que muestran beta densidades, usted parece afirmar que éstas también describen los resultados de binomio simulaciones ("la frecuencia con la que ocurre en una simulación"). Pero ambas cosas son diferentes, aunque en la ilustración parezcan bastante cercanas. (Eso es una consecuencia de la casi normalidad de la Beta con parámetros grandes y del teorema del límite central para las distribuciones binomiales).

0 votos

Es un buen punto. Pero no estoy seguro de cómo reformularlo adecuadamente. Si sólo trazara el histograma, entonces, por supuesto, no se vería mucho la densidad dada la magnitud de la misma. Así que sí, el histograma es en realidad, supongo, no sólo reducido, sino también la densidad (estimada) del histograma original. Dado el número de ejecuciones también podría calcular un factor y reducirlo linealmente pero se vería casi exactamente igual ADEMÁS lo que (realmente) quiero comparar es la densidad de beta con la densidad del resultado de la simulación (la densidad del histograma original).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X