12 votos

Laplace de suavizado y antes de Dirichlet

En el artículo de wikipedia de suavizado de Laplace (o aditivo de suavizado), se dice que a partir de un Bayesiano punto de vista,

esto se corresponde con el valor esperado de la distribución posterior, utilizando un simétrica distribución Dirichlet con el parámetro $\alpha$ como antes.

Estoy perplejo acerca de cómo es realmente cierto. Podría alguien ayudarme a entender cómo esas dos cosas son equivalentes?

Gracias!

11voto

Jacob Puntos 31

Seguro. Esta es esencialmente la observación de que la distribución Dirichlet es un conjugado previa para la distribución multinomial. Esto significa que tiene la misma forma funcional. El artículo menciona, pero sólo voy a destacar que esto se desprende de la multinomial de muestreo del modelo. Así que manos a la...

La observación es sobre la parte posterior, así que vamos a introducir algunos datos, $x$, lo que se cuenta de $K$ artículos distintos. Observamos $N = \sum_{i=1}^K x_i$ total de muestras. Vamos a suponer $x$ se extrae de un desconocido distribución $\pi$ (en la que vamos a poner un $\mathrm{Dir}(\alpha)$ antes de la $K$-simplex).

La probabilidad posterior de $\pi$ $\alpha$ y los datos de $x$ es

$$p(\pi | x, \alpha) = p(x | \pi) p(\pi|\alpha)$$

La probabilidad, $p(x|\pi)$, es la distribución multinomial. Ahora vamos a escribir el pdf:

$$p(x|\pi) = \frac{N!}{x_1!\cdots x_k!} \pi_1^{x_1} \cdots \pi_k^{x_k}$$

y

$$p(\pi|\alpha) = \frac{1}{\mathrm{B}(\alpha)} \prod_{i=1}^K \pi_i^{\alpha - 1}$$

donde $\mathrm{B}(\alpha) = \frac{\Gamma(\alpha)^K}{\Gamma(K\alpha)}$. Multiplicando, nos encontramos con que,

$$ p(\pi|\alpha,x) = p(x | \pi) p(\pi|\alpha) \propto \prod_{i=1}^K \pi_i^{x_i + \alpha - 1}.$$

En otras palabras, la parte posterior es también de Dirichlet. La pregunta era sobre la parte posterior de la media. Desde la parte posterior es de Dirichlet, podemos aplicar la fórmula para la media de una de Dirichlet para encontrar que,

$$E[\pi_i | \alpha, x] = \frac{x_i + \alpha}{N + K\alpha}.$$

Espero que esto ayude!

1voto

Brian Rasmussen Puntos 68853

Como una nota del lado, también me gustaría añadir otro punto a el por encima de la derivación, que no es realmente sobre la cuestión principal. Sin embargo, hablando de Dirichlet priores en la distribución multinomial, pensé que vale la pena mencionar que lo que sería la forma de probabilidad función de si vamos a tomar probabilidades como molestia variables.

Como lo han señalado correctamente por sydeulissie, el $p(\pi | \alpha, x)$ es proporcional a $\prod_{i=1}^{K} \, \pi_i^{x_i+\alpha-1}$ . Ahora aquí me gustaría calcular el $p(x|\alpha)$.

\begin{equation} p(x | \alpha) = \int \prod_{i=1}^{K}p(x | \pi_i, \alpha)p(\pi|\alpha) \mathrm{d} \pi_1 \mathrm{d} \pi_2 ...\mathrm{d} \pi_K \end{equation}

El uso de un integrante de la identidad para funciones gamma, tenemos: \begin{equation} p(x|\alpha) = \frac{\Gamma(K\alpha)}{\Gamma(N + K\alpha)} \prod_{i=1}^{K} \frac{\Gamma(x_i + \alpha)}{\Gamma(\alpha)} \end{equation}

El de arriba de la derivación de la probabilidad para los datos categóricos se propone un más modo eficaz de tratar con este tipo de datos para los casos en que el tamaño de la muestra $N$ no es lo suficientemente grande.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X