13 votos

¿Por qué hay recomendaciones contra el uso de Jeffreys o Priores de entropía basado para samplers MCMC?

En su página de wiki, los desarrolladores del estado de Stan:

Algunos principios que no nos gusta: invariancia, Jeffreys, entropía

En cambio, veo un montón de recomendación de distribución normal. Hasta ahora utilizado métodos bayesianos que no confían en el muestreo y estaba feliz de haber entendido por qué $\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)$ era una buena opción para probabilidades binomiales.

14voto

Björn Puntos 457

Este es, por supuesto, un conjunto diverso de personas con una amplia gama de opiniones de llegar juntos y la escritura de una wiki. Resumo yo saber/entender con algunos comentarios:

  • La elección de su anterior basado en la conveniencia computacional es una insuficiente justificación de los mismos. E. g. el uso de un Beta(1/2, 1/2), únicamente porque permite conjugar la actualización no es una buena idea. Por supuesto, una vez a la conclusión de que tiene buenas propiedades para el tipo de problema que trabajar, que ya está bien y que bien podría hacer una elección que se hace fácil la implementación. Hay un montón de ejemplos, donde convenientes opciones predeterminadas de dar problemas (ver Gamna(0.001, 0.001) antes de que permite el muestreo de Gibbs).

  • Con Stan - a diferencia de con WinBUGS o ENTRECORTADO - no hay ninguna ventaja particular para (condicionalmente)conjugado de los priores. Así que usted puede ser que apenas un bien ignorar el cómputo de aspecto algo. No del todo, porque con muy pesado de cola de los priores (o inadecuado de los priores) y los datos que no se identificar los parámetros bien, estás en problemas (no es realmente un Stan problema específico, pero Stan es bastante bueno en la identificación de estos problemas y de advertencia al usuario en lugar de feliz muestreo de distancia).

  • Jeffreys y otros "bajo" información de los priores a veces puede ser incorrecta o ser un poco demasiado duro entender en alto dimensiones (nunca de la mente para derivar de ellos) y con datos dispersos. Puede ser que estos causado problemas demasiado a menudo para los autores nunca cómodo con ellos. Una vez que trabajas en algo que se aprende más y ponte cómodo, de ahí el ocasional opinión de reversión.

  • En los escasos datos de configuración antes de la que realmente importa, y si usted puede especificar que totalmente inverosímil de los valores de un parámetro se inverosímil, esto ayuda mucho. Esto motiva la idea de débilmente-informativo priores - no verdaderamente plenamente informativa de los priores, pero con más apoyo para los valores plausibles.

  • De hecho, usted podría preguntarse por qué se molesta con valor informativo de los priores, si tenemos un montón de datos que identifica los parámetros realmente bien (uno sólo podría utilizar de máxima verosimilitud). Por supuesto, hay un montón de razones (evitando patologías, obteniendo la "forma real" de posteriores etc.), pero en "muchos de los datos de" situaciones no parece haber ningún argumento real contra débilmente informativo de los priores lugar.

  • Quizás un poco extraño en una N(0, 1) es un sorprendentemente decente antes para el coeficiente de logística, de Poisson o de regresión de Cox para muchas aplicaciones. E. g. eso es muy aproximadamente la distribución observada de los efectos del tratamiento a través de una gran cantidad de ensayos clínicos.

9voto

vinit dhatrak Puntos 1247

No proporcionan ningún científico/matemático justificación para hacerlo. La mayoría de los desarrolladores no trabajan en este tipo de suposiciones, y que prefieren utilizar más pragmático/heurística de los priores, como la normal, priores con grandes variaciones (que puede ser de carácter informativo, en algunos casos). Sin embargo, es un poco extraño que están felices de usar PC priores, los cuales están basados en la Entropía (KL divergencia), después de que empezaron a trabajar en este tema.

Un fenómeno similar ocurrió con WinBUGS, cuando los desarrolladores se recomienda la $Gamma(0.001,0.001)$ como un no-informativa previa para los parámetros de precisión, ya que se asemeja a la forma de la Jeffreys antes. Este estado se convirtió en el defecto antes de parámetros de precisión. Más tarde, se ha demostrado (por Gelman!) que pueden ser muy informativo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X