Para una respuesta larga, véase Blei, Kucukelbir y McAuliffe aquí . Esta breve respuesta se basa en gran medida en ella.
- El MCMC es asintóticamente exacto; el VI no lo es . En el límite, MCMC se aproximará exactamente a la distribución objetivo. VI viene sin garantía.
- El MCMC es caro desde el punto de vista informático . En general, el VI es más rápido.
Es decir, cuando tenemos tiempo de cálculo para matar y valoramos la precisión de nuestras estimaciones, MCMC gana. Si podemos tolerar que se sacrifique eso por conveniencia, o si trabajamos con datos tan grandes que tienen para hacer la compensación-VI es una opción natural.
O, como describen de forma más elocuente y detallada los autores mencionados anteriormente:
Así, la inferencia variacional es adecuada para grandes conjuntos de datos y escenarios en los que queremos explorar rápidamente muchos modelos; MCMC es adecuado para conjuntos de datos más pequeños y escenarios en los que que pagamos gustosamente un mayor coste computacional para obtener muestras más precisas. Por ejemplo, podríamos ejemplo, podríamos utilizar MCMC en un entorno en el que hemos pasado 20 años recopilando un conjunto de datos pequeño pero datos pequeños pero caros, en el que estamos seguros de que nuestro modelo es adecuado y en el que necesitamos inferencias precisas. inferencias precisas. Podríamos utilizar la inferencia variacional al ajustar un modelo probabilístico de texto a mil millones de documentos de texto y cuando las inferencias se utilicen para servir resultados de búsqueda a una gran población de usuarios. En este caso, podemos utilizar la computación distribuida y la optimización estocástica para escalar y acelerar la inferencia, y podemos explorar fácilmente muchos diferentes modelos de datos.