9 votos

Muestreo de Gibbs para las prioridades de los picos y las losas

En Selección de la variable de espiga y de la losa (ecuación 4) existe una configuración del modelo de la forma

$\beta_k | \lambda_k, \tau_k \sim \text{Normal} (0, \lambda_k \tau_k^2)$

$\lambda_k | \nu_0, w \sim (1-w)\delta_{\nu_0}(\lambda_k) + w \delta_1(\lambda_k)$

donde $\beta_k$ es el $k^{th}$ coeficiente de regresión y $\delta_x$ es la función dirac-delta centrada en $x$ (He cambiado ligeramente la notación).

Estoy tratando de derivar un muestreador de Gibbs para un modelo similar. El muestreador de Gibbs para este algoritmo está en el apéndice del enlace anterior (página 43). Mi confusión viene de la actualización para $\lambda_k$ :

$p(\lambda_k | \cdot) \propto p(\beta_k | 0, \lambda_k \tau_k^2) p(\lambda_k | \nu_0, w)$

lo que, si se sigue, da una densidad no normalizada de la forma

$\frac{1}{\sqrt{\lambda_k \tau_k^2}} \exp(-\frac{2}{\lambda_k \tau_k^2}\beta_k^2)[(1 - w) \delta_{\nu_0}(\lambda_k) + w \delta_1(\lambda_k)]$

Intuitivamente, puedo ver cómo multiplicando el factor del exponente con el primer término se obtiene una masa puntual en $\nu_0$ y con la segunda se obtiene una masa puntual en $1$ que luego normalizamos para obtener la actualización de Gibbs en el documento adjunto (es decir, todas las $\lambda_k$ s en la ecuación anterior se establecen en $\nu_0$ o $1$ para la actualización). Sin embargo, creo que algunas cosas no tienen sentido del todo:

  1. Las funciones delta de Dirac "eligen" los valores de la masa del punto cuando se integran en la región alrededor de la masa del punto, pero aquí no hay tal integración.
  2. De todos modos, ¿cómo se toma una muestra de una distribución condicional de este tipo? ¿Es simplemente la media ponderada de las dos masas puntuales, o una u otra masa puntual con probabilidades dadas por las ponderaciones?
  3. Si se trata de la media ponderada, ¿no es esto similar al ARD en lugar de a los picos y tablas, ya que volvemos a una medida continua de la dispersión?

3voto

user21770 Puntos 6

La notación del documento utiliza $\mathcal J_k$ en lugar de $\lambda_k$ . Voy a utilizar $\lambda_k$ como en la pregunta. Voy a eliminar el subíndice $k$ para simplificar. El modelo es entonces \begin{align*} \beta \mid \lambda &\sim N(0, \lambda \tau^2) \\ \lambda &\sim (1-w) \delta_{\nu_0} + w \delta_1. \end{align*} El resto requiere algunos conocimientos de teoría de la medida y el teorema de Radon-Nikodym. El truco para escribir una densidad conjunta para este modelo es observar que ambas medidas de masa puntual $\delta_{\nu_0}$ y $\delta_1$ tienen densidades con respecto a $\mu = $ la medida de recuento en $\{\nu_0, 1\}$ . Abusando un poco de la notación, escribamos $\delta_{\nu_0}(\lambda)$ para la densidad de $\delta_{\nu_0}$ por ejemplo $\mu$ también, y de manera similar $\delta_1(\lambda)$ denota la densidad de $\delta_1$ por ejemplo $\mu$ . Es fácil comprobar que $$ \delta_{\nu_0}(\lambda) = \begin{cases} 1 & \lambda = \nu_0 \\ 0 & \lambda \neq \nu_0 \end{cases} $$ y de forma similar para $\delta_1(\lambda)$ . Sea $\mathcal L$ sea la medida de Lebesgue en la recta real. Entonces la distribución de $(\beta, \lambda)$ es absolutamente continua con respecto a $\mathcal L + \mu$ con densidad \begin{align*} p(\beta, \lambda) &\propto \underbrace{\frac{1}{\sqrt{\lambda \tau^2}} \exp \Bigl( - \frac{\beta^2}{2 \lambda \tau^2} \Bigr)}_{:= f(\lambda,\beta)}\cdot \bigl[(1-w) \delta_{\nu_0}(\lambda) + w \delta_1(\lambda)\bigr] \\ &= (1-w) f(\lambda, \beta) \delta_{\nu_0}(\lambda) + w f(\lambda, \beta) \delta_1(\lambda) \\ &= (1-w) f(\nu_0, \beta) \delta_{\nu_0}(\lambda) + (1-w) f(1, \beta) \delta_1(\lambda) \end{align*} donde la última línea sigue ya que $\delta_{\nu_0}(\lambda)$ y $\delta_1(\lambda)$ son funciones indicadoras.

Entonces, tenemos $$ p(\lambda \mid \beta) \propto \underbrace{(1-w) f(\nu_0, \beta)}_{w_1} \delta_{\nu_0}(\lambda) + \underbrace{(1-w) f(1, \beta)}_{w_2} \delta_1(\lambda) $$ que es una densidad con respecto a $\mathcal L + \mu$ . Desde $\beta$ es una constante aquí, se trata de una distribución discreta que toma valores $\nu_0$ y $1$ con probabilidades proporcionales a $w_1$ y $w_2$ . Esto se puede expresar alternativamente como $$ \mathbb P(\lambda = \nu_0 \mid \beta) = \frac{w_1}{w_1 + w_2}, \quad \mathbb P(\lambda = 1 \mid \beta) = \frac{w_2}{w_1 + w_2}. $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X