Declaración Del Problema
Por un problema en la biología, la estoy probando una distribución conjunta de la forma:
$$ X \sim Multinomial(\frac{\theta_1}{\sum \theta_i}, ...,\frac{\theta_n}{\sum{\theta_i}}) \\ \theta_i \sim Gamma(\alpha_i, \beta_i) $$ (donde yo uso la forma de tasa de configuración de parámetros de la distribución Gamma).
Estoy interesado en el (logaritmo del) distribución marginal $$ P(X | \alpha_{1..n}, \beta_{1..n}) = \int Multinomial(X|\Theta) \prod_i Gamma(\theta_i | \alpha_i, \beta_i) d \Theta $$
Sé que, en el caso especial de $\beta_1 = \beta_2 = ... = \bar\beta$, la distribución marginal es de Dirichlet Multinomial (DM). La DM de distribución, sin embargo no se ajusta a los datos que estoy encontrando, los datos están más dispersos que lo que el DM de distribución puede acomodar. ¿Cómo puedo evaluar/aproximado de la general integral, al menos, un poco de manera eficiente? Yo necesitaría para esto, dentro de una gran inferencia, por lo que para muchas combinaciones de los parámetros.
El $\alpha_i$ e $\beta_i$ provienen de un nivel más profundo de la modelo y son limitados por lo que $\sum E(log(\theta_i)) = 0$.
Es posible que esta realidad es un problema muy difícil, y el puntero de por qué es difícil que iba a ser una respuesta suficiente.
Cosas que he probado
Dejando $\beta_{1..n}$ a variar y el tratamiento de la $\theta_{1..n}$ como explícita de variables latentes, este modelo se ajusta a los datos razonablemente bien, pero es muy lento, incluso para las pequeñas $n$ debido a la gran cantidad de variables latentes (estoy usando Stan).
Yo no creo que existe una solución analítica para $P(X | \alpha_{1..n}, \beta_{1..n})$ en el caso general, pero sería posible escribir una aproximación o tener un esquema de integración numérica que me dejaría para el cálculo de la (log) de esta densidad de una manera eficiente? Se siente como la estructura de independiente Gammas podría ser de alguna manera explotable (de hecho, la integral puede ser modificado para ser más yo.yo.d Gammas de tomar ventaja de la Gamma de propiedades de escala).
Yo he probado un ingenuo Monte-carlo (esquema de la muestra de las gammas, calcular el multinomial densidad promedio de más muestras) que estaba perdidamente lento para convergen incluso con unas dimensiones y un sencillo importancia esquema de muestreo, a partir de muestras de la distribución Dirichlet como las propuestas de $\theta_1 / \sum \theta_i$ (a de la muestra cerca de la máxima verosimilitud área de la multinomial), pero eso sólo empeoró la situación.
He tratado de encontrar la aproximación de Laplace a $P(log(\Theta)|X, \alpha_i, \beta_i)$ que se ve razonablemente de Gauss-como para muchas combinaciones de parámetros, pero resulta ser problemático, como cuando $x_i = 0$ e $\alpha_i \leq 1$, el modo no está definido. $P(\Theta)|X, \alpha_i, \beta_i)$ no parecerse a los de Gauss.
A partir de la aproximación del punto de vista de la pregunta ¿Cuál es el valor esperado de modificaciones de la distribución Dirichlet? (problema de integración) está relacionado. Pero todos mis intentos de composición como de muy baja aproximaciones.
Ligeramente philosphical nota: creo que DM no se adapta a mis datos porque DM surge también de muestreo multinomial de la binomial negativa variables con un factor de Fano (media/varianza de la proporción de) - véase, por ejemplo, Analíticamente la solución de muestreo con o sin reemplazo después de Poisson/binomial Negativa. Neg. binomio es el Gamma-Poisson, donde el $\beta$ parámetro determina el factor de Fano. Pero mis datos corresponden a multinomial de muestreo de neg. binom variables en las que el factor de Fano varía