5 votos

Algoritmo de aproximación de una densidad por una densidad de mezcla

Dada una densidad $f(x)$ (por ejemplo, la distribución log-normal o log- $t_{\nu=3}$ distribución), me preguntaba qué algoritmo se conoce/utiliza habitualmente para encontrar una mezcla de distribuciones $g_r(x)$ de otra clase de distribuciones (por ejemplo, las distribuciones gamma) para que $f(x) \approx \sum_{r=1}^R w_r g_r(x)$ con pesos $0<w_r<1$ para $r=1,\ldots,R$ Satisfaciendo a $\sum_{r=1}^R w_r=1$ . Esto es útil, por ejemplo, para representar una prioridad para un análisis bayesiano en una forma analíticamente más manejable (conjugada). He mencionado el log- $t_{\nu=3}$ sólo para decir que lo ideal sería no tener que asumir la existencia de demasiados momentos (en el extremo querría aproximar la distribución log-Cauchy).

Idealmente, estoy buscando algo que sea fácil de implementar (o que ya esté implementado en, por ejemplo, R). Intenté minimizar la divergencia de Kullback-Leibler escribiendo yo mismo una función en R que hace la integración numérica necesaria y aplicando un enfoque de minimización genérico (usando nlm en R) a eso, pero minimizar esto ya sea a través de todos los parámetros y pesos a la vez (o iterando pesos y parámetros) parece no funcionar bien incluso después de que usé transformaciones que aseguran que las restricciones de los parámetros sean respetadas. Otra estrategia podría ser simular a partir de mi distribución objetivo y luego aplicar un algoritmo EM a los datos simulados, pero de alguna manera se siente como que debería ser capaz de hacer mejor que eso cuando sé las funciones de densidad analítica. Supongo que ya existen soluciones para este problema, pero que es sólo mi falta de conocimiento de las palabras de búsqueda adecuadas lo que me ha impedido encontrarlas.

1voto

Kage Puntos 21

Para usar su notación digamos que queremos una mezcla de $R$ y tenemos $N$ puntos de datos. Siempre utilizaré $i$ para iterar a través de mezclas y $j$ para iterar a través de los puntos de datos.

Mi comprensión del típico modelo de mezcla discreta, tiene:

1) Una distribución multinomial con parámetro $w$ de la cual $y = (y_1, \dots, y_N)$ se sorteará, con $y_j \in \{1, \dots, R\}$ .

2) Una colección de distribuciones (ha mencionado la Gamma), $f_i(x) = P(x | y_j = i, \theta_i)$ , donde $\theta_i$ es el parámetro que rige el $i^{th}$ componente.

Utilizaríamos nuestros datos para estimar $w, y, \theta$ utilizando algo así como $MLE$ .

Para hacer este modelo bayesiano, añadiríamos distribuciones a priori a ambos $w$ (a menudo una distribución Dirichlet) y $\theta$ (a menudo un previo conjugado a cualquier familia de distribuciones que haya elegido para los componentes de la mezcla). A continuación, utilizaremos $MAP$ (a menudo usando optimización numérica), o Inferencia Bayesiana (a menudo usando MCMC, especialmente si no usamos priores conjugados) para estimar los parámetros.

0 votos

Gracias por la respuesta. Mi pregunta era realmente qué hacer cuando no se tienen observaciones. Cuando tengo observaciones puedo hacer lo que sugieres de usar el algoritmo EM. Pero cuando quiero aproximar una priorización analítica (y en particular una priorización poco informativa o débilmente informativa) por medio de priorizaciones conjugadas, la única forma en que puedo aplicar este enfoque es simulando a partir de la priorización que quiero aproximar. Esto se vuelve problemático cuando se trata de una prioridad muy poco informativa, porque algunos de los valores que termino simulando acaban siendo extremadamente grandes (lo que lleva a todo tipo de problemas numéricos, etc.).

0 votos

Si se vuelve problemático con los valores simulados, entonces tal vez la aproximación por una mezcla no es lo que se busca.

1voto

Lev Puntos 2212

Sin recurrir a la simulación, asumiendo la previa analítica $\pi$ es suficientemente analítica, una alternativa es identificar los primeros momentos de $\pi$ y ejecutar una estimación de la densidad de la mezcla basada en estos momentos. Si algunos momentos no existen, la mezcla gaussiana no es una aproximación adecuada.

1voto

user10479 Puntos 395

Una posible limitación de este interesante enfoque se debe a la positividad impuesta de los pesos. Aunque las funciones $g_r(x)$ formulario una muy buena base de funciones, las restricciones $w_r >0$ puede limitar la calidad de la aproximación de la densidad $f(x)$ .

Un ejemplo bastante conocido es el de las combinaciones lineales de B-splines. La imposición de pesos positivos es una forma fácil pero ineficiente de obtener una spline positiva y no conduce a la spline positiva "general". Las splines positivas se han estudiado a fondo se han estudiado a fondo y se ha comprobado que se puede hacer frente a ellas mediante el uso de restricciones cónicas en el caso cúbico. en el caso cúbico.

Aunque garantizar la positividad parece muy difícil en un donde los pesos ya no se suponen positivos, los magia de la conjugación debería seguir funcionando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X