19 votos

¿Por qué funciona el adelgazamiento en la inferencia bayesiana?

En la inferencia bayesiana, hay que determinar la distribución posterior de los parámetros a partir de la distribución a priori y la probabilidad de los datos. Como este cálculo puede no ser posible de forma analítica, pueden ser necesarios métodos de simulación.

En los algoritmos MCMC (Markov Chain Monte Carlo), se genera una cadena de Markov cuya distribución límite es la distribución posterior deseada. En la práctica, puede resultar difícil evaluar si se ha alcanzado la convergencia. Cuando se detiene una cadena de Markov en un paso finito, no se tienen realizaciones independientes, ya que cada punto generado depende de los anteriores. Lo que ocurre es que, a medida que la cadena avanza, dicha dependencia será cada vez menor, y en el infinito se obtendrían realizaciones independientes de la posterior.

Así, supongamos que hemos detenido la cadena de Markov en un paso finito, y que la muestra obtenida tiene todavía una autocorrelación significativa. No tenemos extracciones independientes de la distribución posterior. El adelgazamiento consiste en elegir puntos separados de la muestra, en cada $k$ -en el paso. A medida que vamos separando los puntos de la cadena de Markov, la dependencia se hace menor y conseguimos una especie de muestra independiente. Pero lo que no entiendo de este procedimiento es que, aunque tengamos una muestra (aproximadamente) independiente, no estamos todavía simulando a partir de la distribución posterior; si no, toda la muestra tendría independencia presente.

Así que, en mi opinión, el adelgazamiento da más independencia, lo que sin duda es necesario para aproximarse a la estadística mediante la simulación de Montecarlo y la ley de los grandes números. Pero no acelera el encuentro con la distribución posterior. Al menos, no conozco ninguna evidencia matemática sobre este último hecho. Así que, en realidad, no hemos ganado nada (aparte de una menor demanda de almacenamiento y memoria). Se agradecería cualquier idea sobre esta cuestión.

15voto

Lev Puntos 2212

El adelgazamiento no tiene nada que ver con la inferencia bayesiana, sino con la simulación pseudoaleatoria por ordenador.

El objetivo de generar una cadena de Markov $(\theta_t)$ a través de algoritmos MCMC es lograr más fácilmente simulaciones a partir de la distribución posterior, $\pi(\cdot)$ . Sin embargo, la pena de hacerlo es crear una correlación entre las simulaciones. (Con respecto a la pregunta, esta correlación persiste incluso asintóticamente en $t$ .) Mediante el submuestreo o el adelgazamiento de la cadena de Markov $(\theta_t)$ Esta correlación suele reducirse (aunque no siempre) a medida que aumenta el intervalo de adelgazamiento.

Sin embargo, el adelgazamiento no tiene nada que ver con la convergencia de la cadena de Markov a la distribución estacionaria $\pi(\cdot)$ ya que es un post-proceso de la cadena de Markov simulada $(\theta_t)$ . El adelgazamiento sólo tiene sentido cuando la cadena es (aproximadamente) estacionaria. La eliminación de los primeros valores de la cadena de Markov para eliminar el impacto del valor inicial se denomina quemado o calentamiento.

Obsérvese además que el adelgazamiento rara vez es útil cuando se consideran aproximaciones de las expectativas posteriores (por el Teorema Ergódico) $$\frac{1}{T}\sum_{t=}^T h(\theta_t) \longrightarrow \int h(\theta(\pi(\theta)\text{d}\theta$$ ya que el uso de toda la cadena (sin adelgazar) suele reducir la varianza de la aproximación. Si las necesidades específicas exigen una muestra casi iid de $\pi(\cdot)$ El adelgazamiento puede ser atractivo, pero salvo en situaciones específicas en las que se puede aplicar la renovación, no hay garantía de que la muestra sea "i" o "id"... La solución alternativa de ejecutar varias cadenas de forma independiente en paralelo produce muestras independientes pero, de nuevo, rara vez se garantiza que los puntos se distribuyan exactamente de $\pi(\cdot)$ .

6voto

Dipstick Puntos 4869

El adelgazamiento no funciona realmente. Al contrario, sin Si se hace un adelgazamiento, se obtienen más muestras y, por tanto, estimaciones más precisas (Link y Eaton, 2012). Añadiendo a la gran respuesta por Xi'an Hoy en día, el adelgazamiento no se recomienda porque no ayuda mucho. Se puede utilizar el adelgazamiento si se quiere reducir el disco, o la memoria El uso de la tecnología es más sencillo, ya que se almacenan menos muestras, pero esa parece ser la mayor ventaja.

Link, W. A., y Eaton, M. J. (2012). <a href="https://besjournals.onlinelibrary.wiley.com/doi/10.1111/j.2041-210X.2011.00131.x" rel="nofollow noreferrer">Sobre el adelgazamiento de las cadenas en MCMC </a>. <em>Métodos en ecología y evolución, 3 </em>(1), 112-115.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X