Sí. A diferencia de lo que afirman otras respuestas, los métodos "típicos" de aprendizaje automático, como los no paramétricos y las redes neuronales (profundas) puede ayudar a crear mejores muestreadores MCMC.
El objetivo de MCMC es extraer muestras de una distribución objetivo (no normalizada) $f(x)$ . Las muestras obtenidas se utilizan para aproximar $f$ y sobre todo permiten calcular las expectativas de las funciones bajo $f$ (es decir, integrales de alta dimensión) y, en particular, propiedades de $f$ (como los momentos).
El muestreo suele requerir un gran número de evaluaciones de $f$ y posiblemente de su gradiente, para métodos como el Hamiltonian Monte Carlo (HMC). Si $f$ es costoso de evaluar, o el gradiente no está disponible, a veces es posible construir un función sustituta que puede ayudar a guiar el muestreo y se evalúa en lugar de $f$ (de forma que siga conservando las propiedades de MCMC).
Por ejemplo, un artículo fundamental ( Rasmussen 2003 ) propone utilizar Procesos gaussianos (una aproximación de función no paramétrica) para construir una aproximación a $\log f$ y realizar HMC en la función sustituta, con sólo el paso de aceptación/rechazo de HMC basado en $f$ . Esto reduce el número de evaluaciones del original $f$ y permite realizar MCMC sobre pdfs que de otro modo serían demasiado costosas de evaluar.
La idea de utilizar sustitutos para acelerar el MCMC se ha explorado mucho en los últimos años, esencialmente probando diferentes maneras de construir la función sustituta y combinarla de manera eficiente/adaptativa con diferentes métodos de MCMC (y de una manera que preserve la "corrección" del muestreo MCMC). En relación con su pregunta, estos dos trabajos muy recientes utilizan técnicas avanzadas de aprendizaje automático: redes aleatorias ( Zhang et al. 2015 ) o funciones de núcleo exponencial aprendidas de forma adaptativa ( Strathmann et al. 2015 ) -- para construir la función sustituta.
La HMC no es la única forma de MCMC que puede beneficiarse de los sustitutos. Por ejemplo, Nishiara et al. (2014) construir una aproximación de la densidad del objetivo mediante el ajuste de una prueba de Student multivariante $t$ al estado multicadena de un muestreador de conjuntos, y utilizarlo para realizar una forma generalizada de muestreo de cortes elípticos .
Estos son sólo ejemplos. En general, se pueden utilizar diversas técnicas de ML (sobre todo en el ámbito de la aproximación de funciones y la estimación de la densidad) para extraer información que puede mejorar la eficacia de los muestreadores MCMC. Su actual La utilidad -medida, por ejemplo, en número de "muestras independientes efectivas por segundo"- está condicionada por $f$ siendo caros o algo difíciles de calcular; además, muchos de estos métodos pueden requerir un ajuste propio o conocimientos adicionales, lo que restringe su aplicabilidad.
Referencias:
-
Rasmussen, Carl Edward. "Procesos gaussianos para acelerar el Monte Carlo híbrido para integrales bayesianas caras". Estadística bayesiana 7. 2003.
-
Zhang, Cheng, Babak Shahbaba y Hongkai Zhao. "Aceleración de Monte Carlo hamiltoniano usando funciones sustitutas con bases aleatorias". preimpresión arXiv arXiv:1506.05555 (2015).
-
Strathmann, Heiko, et al. "Hamiltonian Monte Carlo sin gradiente con familias exponenciales de kernel eficientes". Avances en sistemas de procesamiento de información neuronal. 2015.
-
Nishihara, Robert, Iain Murray, y Ryan P. Adams. "MCMC paralelo con muestreo elíptico generalizado de cortes". Journal of Machine Learning Research 15.1 (2014): 2087-2112.
5 votos
¿Podría especificar qué tipo de "mejora" tiene en mente y cómo ve el papel del aprendizaje automático en ella?
2 votos
Por lo general, el MCMC suele implicar la estimación de valores a partir de expresiones sin forma cerrada que son simplemente demasiado complejas para encontrar soluciones analíticas. Es posible que la agrupación multivariante (o enfoques similares) pueda utilizarse para estimar densidades multivariantes más sencillas, pero yo lo vería más bien como una alternativa al uso de MCMC.
1 votos
@AdamO, ¿por qué no convertir eso en una respuesta? Parece que podría ser lo mejor que podemos conseguir aquí.
0 votos
@Tim Bueno, por lo que he leído, MCMC extrae muestras de una distribución para calcular cantidades inferenciales. El algoritmo MH escoge aleatoriamente "ubicaciones" y luego afirma si son aceptables. Lo que me preguntaba es si hay técnicas alternativas de ML. Sé que suena vago, y pido disculpas por ello, pero MCMC me parece intrigante y estoy intentando hacerme con la teoría y las aplicaciones prácticas mediante el autoestudio.
1 votos
Relacionado arxiv.org/pdf/1506.03338v3.pdf