8 votos

Inferencia bayesiana sobre la media de la estadística de la población

Supongamos que una colección de intervalos de tiempo $t_i$ se han producido, por $i=1,...,n$ . Estos deben considerarse como muestras de una población regida por alguna distribución. Durante estos intervalos de tiempo, se produce algún evento según un proceso de Poisson con tasa constante conocida $\lambda{}$ independientemente en todos los intervalos de tiempo. Mis datos consisten en los recuentos $y_1,..,y_n$ de los eventos. Para cualquier $i$ puedo calcular una distribución posterior $p(\lambda{}t_i|y_i)$ si tengo una distribución gamma a priori sobre $t_i$ , digamos que $\text{Gamma}(\alpha_i,\beta_i)$ , por: $$p(\lambda{}t_i|y_i)=\text{Gamma}(y_i+\alpha_i, \beta_i+1)$$ utilizando métodos estándar para los priores conjugados y, a continuación, mediante el escalado de las distribuciones gamma: $$p(t_i|y_i)=\text{Gamma}(y_i+\alpha_i, (\beta_i+1)\lambda{})$$ Entiendo que si hubiera tenido conjuntos adicionales de datos de conteo relacionados con el mismo $t_i$ En este caso, podría utilizar la actualización bayesiana para mejorar esta distribución posterior con estos conjuntos de datos adicionales.

Pero lo que tengo son datos $\{y_i\}$ correspondientes a diferentes $\{t_i\}$ y quiero encontrar una distribución posterior para la media poblacional (y la varianza) del $\{t_i\}$ . ¿Cómo lo hago? Supongo que entra en juego la modelización jerárquica, pero tengo problemas para aplicarla. Por ejemplo, ¿qué otra prioridad o previsión necesito en relación con la $\{t_i\}$ ?

@Tim. Gracias por tu respuesta. Por cierto, he editado mi pregunta original para eliminar alguna confusión en la notación, pero voy a seguir con el uso en su respuesta y utilizar $\mu_i$ para el parámetro de Poisson que intentamos estimar, de manera que $\mu_i=\lambda{}t_i$ . Mi pregunta de seguimiento, dada su respuesta, es la siguiente. El conjugado $\text{Gamma}(\alpha{},\beta{})$ puede considerarse como la distribución de probabilidad del parámetro de Poisson dado que $\alpha{}$ se observan recuentos en $\beta{}$ intervalos. No hay incertidumbre sobre el número de recuentos representados por $\alpha{}$ ya que son nuestros datos (que se suponen exactos) más un pseudoconteo a priori. Sin embargo, hay incertidumbre sobre los intervalos representados por los segundos parámetros gamma, porque en lugar de un número $\beta{}$ de intervalos iguales, tenemos un número de intervalos desiguales, que representamos haciendo $\beta{}$ una distribución $\beta{}=\text{Gamma}(c,d)$ como en su respuesta. Los parámetros $c$ y $d$ se eligen entonces para reflejar nuestras creencias previas sobre la media y la varianza de las longitudes de estos intervalos. Así que parece que un hiperprior en el segundo parámetro gamma debería ser suficiente para reflejar la incertidumbre en el problema, sin un hiperprior en el $\alpha{}$ parámetro. ¿Es esto razonable y, si es así, hay una forma más rigurosa de justificarlo? Esperemos que esto también apoye la intuición de que sería bueno que a medida que el número de intervalos muestreados $n\rightarrow{}\infty{}$ Esta distribución posterior jerárquica se aproxima a la distribución Gamma que se obtendría si todos los intervalos fueran de igual tamaño, que a su vez es igual al tamaño medio de los intervalos de la muestra. Estas relaciones parecen difíciles de demostrar a partir de una solución puramente computacional.

0voto

Dipstick Puntos 4869

Por su descripción, parece que tiene dos tipos de variables aleatorias: intervalos de tiempo $t_1,\dots,t_n$ y los recuentos de eventos $y_1,\dots,y_n$ . La ocurrencia de eventos depende de la duración de los intervalos de tiempo dada una tasa conocida y constante $\lambda$ según la distribución de Poisson

$$ y_i \sim \mathcal{P}(\lambda t_i) $$

Esto significa que, obviamente, ambas variables están correlacionadas. Te interesa estimar la media global del proceso.

Lo que se estaba considerando hacer, es estimar la distribución condicional de $t_i \mid y_i$ . Sin embargo, si se piensa en ello, ¿por qué no se mira simplemente la distribución marginal de $t_i$ 's..? La relación casual en este caso es que $y_i$ son causados por $t_i$ (están limitados por la longitud de los intervalos), pero los intervalos no están influenciados de ninguna manera por los recuentos. Si se agrupan las longitudes de los intervalos por los recuentos, ¿se obtendría alguna información significativa?

Yo diría, que para su propósito es suficiente que usted mire la distribución marginal de $t_i$ y modelarlo utilizando la distribución más adecuada, por ejemplo, la gamma (como has sugerido),

$$ t_i \sim \mathcal{G}(\alpha, \beta) $$

Entonces el valor global esperado es

$$ E(\lambda T) = \lambda E(T) = \lambda \frac{\alpha}{\beta} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X