He estado notando que en muchas aplicaciones prácticas, los métodos basados en MCMC se usan para estimar un parámetro aunque el posterior sea analítico (por ejemplo, porque los anteriores fueron conjugados). Para mí, tiene más sentido usar estimadores MAP en lugar de estimadores basados en MCMC. ¿Podría alguien señalar por qué MCMC sigue siendo un método apropiado en presencia de un posterior analítico?
Respuestas
¿Demasiados anuncios?No hay necesidad de utilizar MCMC en este caso: la Cadena de Markov Monte Carlo (MCMC) es un método utilizado para generar los valores de una distribución. Se produce una cadena de Markov de auto-correlación de los valores con la distribución estacionaria igual a la distribución de destino. Este método funcionará para obtener lo que desea, incluso en los casos donde la distribución de destino tiene una forma analítica. Sin embargo, no son más sencillos y menos computacionalmente intensivo de métodos de trabajo en casos como este, donde se está tratando con una posterior que tiene una bonita forma analítica.
En el caso de que la distribución posterior dispone de una analítica de la forma, es posible obtener estimaciones de los parámetros (por ejemplo, el MAPA) por la optimización de la distribución utilizando el estándar de cálculo de las técnicas. Si el objetivo de la distribución es lo suficientemente simples que usted puede obtener una solución de forma cerrada para el parámetro estimador, pero incluso si no lo es, normalmente se puede utilizar simples técnicas iterativas (por ejemplo, Newton-Raphson, el gradiente de descenso, etc.) para encontrar la optimización de la estimación del parámetro para cualquier entrada de datos. Si usted tiene una forma analítica de la función cuantil de la distribución de destino, y que necesita para generar los valores de la distribución, puede hacerlo a través de la inversa de la transformación de muestreo, que es menos computacionalmente intensivo de MCMC, y le permite generar IID valores en lugar de los valores con complejo de auto-correlación de los patrones.
En vista de esto, si usted se de programación desde cero, entonces parece que no hay ninguna razón por la que haría uso de la MCMC en el caso de que la distribución de destino dispone de una analítica de la forma. La única razón por la que usted podría hacer es que si tienes un algoritmo genérico para MCMC ya escrito, que puede ser implementado con un mínimo de esfuerzo, y usted decide que la eficiencia de la utilización de la analítica, la forma se ve compensado por el esfuerzo de hacer lo necesario matemáticas. En ciertos contextos prácticos usted tendrá que lidiar con los problemas que generalmente son intratables, donde los algoritmos MCMC ya están configurados y puede ser implementado con un mínimo de esfuerzo (por ejemplo, si usted hace el análisis de datos en RStan
). En estos casos puede ser más fácil ejecutar sus actuales métodos MCMC, en lugar de derivar de soluciones analíticas a problemas, a pesar de que éste puede ser utilizado como un control sobre su trabajo.
Es claro para mí lo que ustedes llaman una analítica posterior $\pi(\theta)$ y por lo tanto, ¿por qué este analiticidad debe perderse el uso de MCMC. Incluso para una posterior distribución que está disponible en forma cerrada, incluyendo su normalización constante, que es como yo lo entiendo analítica en esta configuración, no hay ninguna razón para Bayes estimaciones a estar disponible en forma cerrada, como la solución para el problema de minimización$$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$$when $\tilde\pi\cdot)\propto\pi\cdot)$ depende fuertemente de la función de pérdida.
Cuando la constante de normalización de $$\int \tilde\pi(\theta)\,\text{d}\theta$$is not available, finding a posterior mean or median or even mode [which does not require to know the constant], most often proceeds through an MCMC algorithm. For instance, if I am given the joint density, when $x,y\in(0,1)$, $$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\en(-1,1)$$inspired by the Ali-Mikhail-Haq copula: it may be properly normalised (and is indeed), but the conditional expectation of $\Phi^{-1}(X)$ given $Y=Y$ under this density, when $\Phi(.)$ es Normal en el cdf, no está disponible en forma cerrada. Sin embargo, esto es una cuestión de interés primordial.
Tenga en cuenta también que el máximo a posteriori estimador no es la más natural estimador en un Bayesiano de configuración, ya que no corresponde a una función de pérdida y de que forma cerrada de la representación de la densidad, incluso hasta una constante, no hacen que encontrar el MAPA necesariamente fácil. O utilizando el MAPA correspondiente.
Como he leído, esta pregunta está pidiendo a los dos un poco ortogonal preguntas. Uno se debe usar el MAPA-estimadores más posterior medios, y la otra es si uno debe MCMC si la parte posterior tiene una forma analítica.
En lo que respecta a la MAPA estimadores más posterior significa, desde una perspectiva teórica, posterior medios son generalmente preferidos, como @Xian señala en su respuesta. La verdadera ventaja de MAPA de estimadores es que, especialmente en el más típico caso en que la posterior no está en forma cerrada, que puede ser calculada mucho más rápido (es decir, varios órdenes de magnitud) que una estimación de la parte posterior de la media. Si la parte posterior es de aproximadamente simétrica (que a menudo es el caso en muchos de los problemas con los tamaños de muestra grandes), a continuación, asignar presupuesto debe estar muy cerca de la parte posterior de la media. Por lo que el atractivo de la MAPA es en realidad que puede ser muy barato aproximación de la parte posterior de la media.
Tenga en cuenta que conocer la normalización de la constante no nos ayuda a encontrar la posterior modo, para tener una solución de forma cerrada para la posterior técnicamente no nos ayuda a encontrar el MAPA de estimación, fuera del caso en que reconocemos la parte posterior como una distribución específica para la cual sabemos que es el modo.
En lo que respecta a la segunda pregunta, si uno tiene una forma cerrada de la distribución posterior, en general, no hay ninguna razón para utilizar algoritmos MCMC. Teóricamente, si había una solución de forma cerrada para la distribución posterior, pero que no tiene una forma cerrada para la media de una función y no podía tomar deriva directamente de esta forma cerrada de distribución, entonces uno se podría recurrir a algoritmos MCMC. Pero no estoy al tanto de todos los casos de esta situación.
Yo diría que la MCMC métodos no son necesariamente inadecuado, aun cuando de forma cerrada, existen soluciones. Obviamente, es bueno cuando una solución analítica existe: son generalmente rápido, evitar las preocupaciones sobre la convergencia (etc).
Por otro lado, la consistencia es también importante. La conmutación de la técnica a técnica complica su presentación: en el mejor de los casos, los detalles superfluos que pueden confundir o distraer a la audiencia de distancia de su sustantivo resultado, y en el peor, podría verse como un intento de influenciar los resultados. Si he tenido varios modelos, de los cuales sólo algunos de admitir de forma cerrada, soluciones, me atrevería a considerar la ejecución de todas ellas a través de la misma MCMC canalización incluso si no fuera estrictamente necesario.
Sospecho que esto, además de inercia ("tenemos este script que funciona") representa la mayor parte de lo que estás viendo.