5 votos

MCMC bayesiano básico para estimar dos parámetros de distribuciones binomiales dado un número desconocido de ensayos

Esta es una pregunta muy básica sobre la inferencia bayesiana. No estoy entendiendo uno o varios conceptos fundamentales.

Digamos que tengo dos resultados observados, X y Y . Quiero inferir las probabilidades ( px y py respectivamente) de cada una de las ocurrencias dadas X y Y . No sé N el número total de ensayos. Estoy asumiendo que X y Y se distribuyen de forma binómica. ¿Cómo puedo calcular la probabilidad sin N ?

Lo que quiero en última instancia es mostrar la distribución posterior bivariada de px y py a través de MCMC. No me importa estimar N --Quiero mostrar la cadena en el plano de px y py . No es necesaria la convergencia.


Aclaración: X y Y se extraen del mismo N : X ~Binom( N , px ) y Y ~Binom( N , py ). No tenemos ninguna otra información sobre px o py Aunque usaré una beta antes de empezar. También asumo que X y Y son independientes.

7voto

user11867 Puntos 21

Modelo y pseudocódigo

Así que hice algunos análisis en Python, aunque utilicé la biblioteca pyMC que oculta todas las cosas matemáticas de MCMC. Te mostraré cómo lo modelé en semi-pseudocódigo, y los resultados.

He establecido mis datos observados como $X=5, Y=10$ .

X = 5
Y = 10

Supuse que $N$ tiene una prioridad de Poisson, con la tasa de Poisson a $EXP(1)$ . Este es un previo bastante justo. Aunque podría haber elegido alguna distribución uniforme en algún intervalo:

rate = Exponential( mu = 1 )
N = Poisson( rate = rate)

Usted menciona los antecedentes beta en $pX$ y $pY$ Así que lo codifiqué:

pX = Beta(1,1) #equivalent to a uniform
pY = Beta(1,1)

Y lo combino todo:

observed = Binomial(n = N, p = [pX, pY], value = [X, Y] )

Luego realizo el MCMC sobre 50000 muestras, quemando aproximadamente la mitad. A continuación se muestran los gráficos que generé después de MCMC.

Interpretación:

Examinemos el primer gráfico para $N$ . El N Rastro son las muestras, en orden, que he generado a partir de la distribución posterior. El N acorr es la autocorrelación entre muestras. Tal vez haya todavía demasiada autocorrelación y deba quemar más. Finalmente, N-hist es el histograma de las muestras posteriores. Parece que la media es 13. Obsérvese también que no se han extraído muestras por debajo de 10. Esto es una buena señal, ya que sería imposible dado que los datos observados eran 5 y 10.

Se pueden hacer observaciones similares para el $pX$ y $pY$ gráficos.

enter image description here

enter image description here

enter image description here

Diferentes Prior en $N$

Si restringimos $N$ para que sea una variable aleatoria de Poisson( 20 ) (y eliminar la jerarquía exponencial), obtenemos resultados diferentes. Esta es una consideración importante, y revela que la prioridad puede hacer una gran diferencia. Vea los gráficos de abajo. Nótese que el tiempo de convergencia fue mucho mayor aquí también.

Por otra parte, el uso de una prioridad de Poisson( 10 ) produjo resultados similares a la prioridad de la tasa de Exp.

enter image description here enter image description here enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X