49 votos

¿Qué es exactamente el alfa de la distribución Dirichlet?

Soy bastante nuevo en la estadística bayesiana y me encontré con una medida de correlación corregida, SparCC que utiliza el proceso Dirichlet en el fondo de su algoritmo. He estado tratando de ir a través del algoritmo paso a paso para entender realmente lo que está sucediendo, pero no estoy seguro exactamente lo que el alpha parámetro vectorial en una distribución Dirichlet y cómo normaliza la alpha ¿parámetro vectorial?

La aplicación está en Python utilizando NumPy : https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Los documentos dicen:

alfa : matriz Parámetro de la distribución (dimensión k para la muestra de dimensión k).

Mis preguntas:

  1. ¿Cómo se alphas ¿afecta a la distribución?;

  2. ¿Cómo son los alphas ¿se está normalizando?; y

  3. ¿Qué sucede cuando el alphas no son números enteros?

    import numpy as np import pandas as pd import matplotlib.pyplot as plt

    Reproducibility

    np.random.seed(0)

    Integer values for alphas

    alphas = np.arange(10)

    array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

    Dirichlet Distribution

    dd = np.random.dirichlet(alphas)

    array([ 0. , 0.0175113 , 0.00224837, 0.1041491 , 0.1264133 ,

    0.06936311, 0.13086698, 0.15698674, 0.13608845, 0.25637266])

    Plot

    ax = pd.Series(dd).plot() ax.set_xlabel("alpha") ax.set_ylabel("Dirichlet Draw")

enter image description here

114voto

Dipstick Puntos 4869

Le site Distribución de Dirichlet es una distribución de probabilidad multivariante que describe $k\ge2$ variables $X_1,\dots,X_k$ , de tal manera que cada $x_i \in (0,1)$ y $\sum_{i=1}^N x_i = 1$ que está parametrizado por un vector de parámetros de valor positivo $\boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k)$ . Los parámetros no tienen que ser números enteros, sólo tienen que ser números reales positivos. No están "normalizados" de ninguna manera, son parámetros de esta distribución.

La distribución de Dirichlet es una generalización de la distribución beta en múltiples dimensiones, así que puedes empezar por aprender sobre la distribución beta. La beta es una distribución univariante de una variable aleatoria $X \in (0,1)$ parametrizado por los parámetros $\alpha$ y $\beta$ . La agradable intuición sobre esto viene si se recuerda que es un previo conjugado para el distribución binomial y si asumimos una prioridad beta parametrizada por $\alpha$ y $\beta$ para el parámetro de probabilidad de la distribución binomial $p$ entonces la distribución posterior de $p$ es también una distribución beta parametrizada por $\alpha' = \alpha + \text{number of successes}$ y $\beta' = \beta + \text{number of failures}$ . Así que puedes pensar en $\alpha$ y $\beta$ a partir de pseudocuentas (no es necesario que sean números enteros) de éxitos y fracasos (compruebe también este hilo ).

En el caso de la distribución Dirichlet, es un previo conjugado para el distribución multinomial . Si en el caso de la distribución binomial podemos pensar en términos de sacar bolas blancas y negras con reemplazo de la urna, entonces en el caso de la distribución multinomial estamos sacando con reemplazo $N$ bolas que aparecen en $k$ colores, donde cada uno de los colores de las bolas puede ser extraído con probabilidades $p_1,\dots,p_k$ . La distribución Dirichlet es una prioridad conjugada para $p_1,\dots,p_k$ probabilidades y $\alpha_1,\dots,\alpha_k$ Los parámetros se pueden considerar como pseudocuentas de bolas de cada color asumido a priori (pero debería leer también sobre el los escollos de este tipo de razonamiento ). En el modelo Dirichlet-multinomial $\alpha_1,\dots,\alpha_k$ se actualizan sumándolos con los recuentos observados en cada categoría: $\alpha_1+n_1,\dots,\alpha_k+n_k$ de forma similar al caso del modelo beta-binomial.

El valor más alto de $\alpha_i$ Cuanto mayor sea el "peso" de $X_i$ y se le asigna la mayor cantidad de la "masa" total (recordemos que en total debe ser $x_1+\dots+x_k=1$ ). Si todos los $\alpha_i$ son iguales, la distribución es simétrica. Si $\alpha_i < 1$ puede considerarse como un antipeso que aleja $x_i$ hacia los extremos, mientras que cuando es alta, atrae $x_i$ hacia algún valor central (central en el sentido de que todos los puntos se concentran alrededor de él, no en el sentido de que es simétricamente central). Si $\alpha_1 = \dots = \alpha_k = 1$ entonces los puntos están distribuidos uniformemente.

Esto se puede ver en los gráficos de abajo, donde se pueden ver las distribuciones trivariadas de Dirichlet (desafortunadamente podemos producir gráficos razonables sólo hasta tres dimensiones) parametrizadas por (a) $\alpha_1 = \alpha_2 = \alpha_3 = 1$ , (b) $\alpha_1 = \alpha_2 = \alpha_3 = 10$ , (c) $\alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5$ , (d) $\alpha_1 = \alpha_2 = \alpha_3 = 0.2$ .

Four different samples from Dirichlet distributions. In (a) the values are "uniformly" scattered all over the space, in (b) they are clustered around the center, in (c) they are clustered around one side (alpha_2), and slightly shifted towards another (alpha_3), in (d) the values are drifting away from the center, towards the borders.

La distribución de Dirichlet se denomina a veces "distribución sobre distribuciones" ya que puede considerarse como una distribución de probabilidades en sí misma. Obsérvese que, dado que cada $x_i \in (0,1)$ y $\sum_{i=1}^k x_i = 1$ entonces $x_i$ son consistentes con la primera y la segunda axiomas de la probabilidad . Así, se puede utilizar la distribución de Dirichlet como una distribución de probabilidades para eventos discretos descritos por distribuciones como categórico o multinomial . Es no Es cierto que es una distribución sobre cualquier distribución, por ejemplo, no está relacionada con las probabilidades de las variables aleatorias continuas, o incluso con algunas discretas (por ejemplo, una variable aleatoria con distribución de Poisson describe las probabilidades de observar valores que son números naturales cualesquiera, por lo que para utilizar una distribución Dirichlet sobre sus probabilidades, se necesitaría un número infinito de variables aleatorias $k$ ).

24voto

Charlie Puntos 1

_Descargo de responsabilidad: Nunca he trabajado con esta distribución. Esta respuesta se basa en ce artículo de la wikipedia y mi interpretación del mismo._


La distribución Dirichlet es una distribución de probabilidad multivariante con propiedades similares a la distribución Beta.

El PDF se define como sigue:

$$\{x_1, \dots, x_K\} \sim\frac{1}{B(\boldsymbol{\alpha})}\prod_{i=1}^Kx_i^{\alpha_i - 1}$$

con $K \geq 2$ , $x_i \in (0,1)$ y $\sum_{i=1}^Kx_i = 1$ .

Si observamos la distribución Beta, estrechamente relacionada:

$$\{x_1, x_2 (=1-x_1)\} \sim \frac{1}{B(\alpha,\beta)}x_1^{\alpha-1}x_2^{\beta-1}$$

podemos ver que estas dos distribuciones son iguales si $K=2$ . Así que basemos nuestra interpretación en eso primero y luego generalicemos a $K>2$ .


En la estadística bayesiana, la distribución Beta se utiliza como prioridad conjugada para los parámetros binomiales (véase Distribución Beta ). La prioridad puede definirse como un conocimiento previo sobre $\alpha$ y $\beta$ (o de acuerdo con la distribución Dirichlet $\alpha_1$ y $\alpha_2$ ). Si algún ensayo binomial tiene entonces $A$ éxitos y $B$ fallos, la distribución posterior es entonces la siguiente: $\alpha_{1,pos} = \alpha_1 + A$ y $\alpha_{2,pos}=\alpha_2 + B$ . (No voy a resolver esto, ya que es probablemente una de las primeras cosas que se aprenden con la estadística bayesiana).

Así que la distribución Beta representa entonces alguna distribución posterior sobre $x_1$ y $x_2 (=1-x_1)$ que pueden interpretarse como la probabilidad de éxitos y fracasos respectivamente en una distribución binomial. Y cuantos más datos ( $A$ y $B$ ), más estrecha será esta distribución posterior.


Ahora sabemos cómo funciona la distribución para $K=2$ podemos generalizarlo para que funcione con una distribución multinomial en lugar de una binomial. Lo que significa que en lugar de dos resultados posibles (éxito o fracaso), permitiremos $K$ resultados (ver por qué se generaliza a Beta/Binom si $K=2$ ?). Cada uno de estos $K$ los resultados tendrán una probabilidad $x_i$ que se suma a 1 como las probabilidades.

$\alpha_i$ entonces toma un papel similar al de la $\alpha_1$ y $\alpha_2$ en la distribución Beta como una prioridad para $x_i$ y se actualiza de forma similar.

Así que ahora vamos a llegar a sus preguntas:

¿Cómo se alphas ¿afecta a la distribución?

La distribución está limitada por las restricciones $x_i \in (0,1)$ y $\sum_{i=1}^Kx_i = 1$ . El $\alpha_i$ determinar qué partes del $K$ -espacio dimensional obtienen la mayor cantidad de masa. Esto se puede ver en esta imagen (no la incrusto aquí porque no soy el dueño de la imagen). Cuantos más datos haya en la parte posterior (usando esa interpretación) mayor será la $\sum_{i=1}^K\alpha_i$ Por lo tanto, cuanto más seguro esté del valor de $x_i$ o las probabilidades de cada uno de los resultados. Esto significa que la densidad estará más concentrada.

¿Cómo son los alphas ¿se está normalizando?

La normalización de la distribución (haciendo que la integral sea igual a 1) pasa por el término $B(\boldsymbol{\alpha})$ :

$$B(\boldsymbol{\alpha}) = \frac{\prod_{i=1}^K\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^K\alpha_i)}$$

De nuevo, si miramos el caso $K=2$ podemos ver que el factor de normalización es el mismo que en la distribución Beta, que utilizaba lo siguiente

$$B(\alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)}$$

Esto se extiende a

$$B(\boldsymbol{\alpha}) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_K)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_K)}$$

¿Qué ocurre cuando las alfas no son enteras?

La interpretación no cambia para $\alpha_i>1$ pero como se puede ver en la imagen que vinculado antes , si $\alpha_i < 1$ la masa de la distribución se acumula en los bordes del rango para $x_i$ . $K$ por otro lado tiene que ser un número entero y $K\geq2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X