8 votos

Tener en cuenta la incertidumbre de p al estimar la media de una distribución binomial

Tengo una distribución binomial con parámetros $N$ y $p$ y la estimación de la media de mi distribución es N $\times p$ . Los valores de $N$ y $p$ son tales que podemos utilizar la aproximación gaussiana para estimar el $\sigma$ de la media como $\sqrt{(n\times p (1-p)}$ . El problema es que ya he estimado $p$ Así que $p$ es en realidad una distribución gaussiana con media conocida y $\sigma$ . Mi objetivo es encontrar un intervalo de confianza para la media de mi distribución binomial, pero ¿cómo puedo tomar la incertidumbre de $p$ en cuenta?

15voto

Dipstick Puntos 4869

Hay varios problemas con su enfoque. En primer lugar, usted quiere utilizar los intervalos de confianza para algo que fueron no diseñado para. Si $p$ varía, entonces el intervalo de confianza no lo hará mostrarle cómo varía. Consulte ¿Por qué un intervalo de confianza (IC) del 95% no implica una probabilidad del 95% de contener la media? para saber más sobre los intervalos de confianza. Además, el uso de la aproximación normal para la proporción binomial y sus intervalos de confianza no es una buena idea, como se describe en Marrón y otros (2001) .

De hecho, por su descripción parece que quiere estimar el Intervalo creíble bayesiano , es decir, el intervalo que contendrá cierta fracción de $p$ de la distribución. Sí, he dicho Bayesiano , ya que, de hecho, usted ya definió su problema como un modelo bayesiano. Usted dice que asume que $p$ es una variable aleatoria, mientras que en el entorno frecuentista $p$ sería un parámetro fijo. Si ya lo ha asumido, ¿por qué no utilizar un modelo bayesiano para sus datos? Estaría utilizando modelo beta-binomial (véase también Introducción al modelo Beta-Binomial papel de Dan Navarro y Amy Perfors). En casos como éste es extremadamente fácil estimar dicho modelo. Podemos definirlo como sigue:

$$ X \sim \mathrm{Binomial}(N, p) \\ p \sim \mathrm{Beta}(\alpha, \beta) $$

así, sus datos $X$ sigue una distribución binomial parametrizada por $N$ y $p$ , donde $p$ es una variable aleatoria. Suponemos que distribución beta con parámetros $\alpha$ y $\beta$ como antes para $p$ . Supongo que si quieres utilizar el método frecuentista, no tienes ningún antes conocimiento sobre la posible distribución de $p$ Así que elegirías "poco informativo" antes parametrizado por $\alpha = \beta = 1$ o $\alpha = \beta = 0.5$ (si lo prefiere, puede traducir esos parámetros a media y precisión o media y varianza ). Después de actualización de su antes , posterior distribución de $p$ es simplemente una distribución beta parametrizada por

$$ \alpha' = \alpha + \text{total number of successes} \\ \beta' = \beta + \text{total number of failures} $$

con la media

$$ E(X) = N \frac{\alpha'}{\alpha'+\beta'} $$

Para leer más sobre el cálculo de otras cantidades de esta distribución consulte el artículo de Wikipedia sobre distribución beta-binomial . Se pueden calcular los intervalos creíbles numéricamente (a) invirtiendo numéricamente la función de distribución acumulativa de la distribución beta-binomial, o (b) muestreando un gran número de valores aleatorios de la distribución beta-binomial y luego calculando Cuantiles de la muestra de ella. El segundo enfoque es bastante fácil, ya que sólo tiene que repetir secuencialmente el siguiente procedimiento:

  1. dibujar $p$ de la distribución beta parametrizada por $\alpha'$ y $\beta'$ ,
  2. dibujar $x$ de una distribución binomial parametrizada por $p$ y $N$ .

hasta que se extraiga una muestra lo suficientemente grande como para encontrarla segura para calcular las cantidades de interés.


Por supuesto, si se conoce la media y la desviación estándar de $p$ y se insiste en utilizar la distribución normal para ello, también se puede utilizar la simulación, pero con el uso de la distribución normal para simular los valores de $p$ . A continuación proporciono un ejemplo de código en R para dicha simulación.

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

O simplemente puede tomar los cuantiles apropiados utilizando la inversa de la función de distribución acumulativa normal y multiplicarlos por $N$ . No obstante, recuerde que no se trata de un intervalo de confianza, sino de un intervalo de credibilidad.


Brown, L.D., Cai, T.T., & DasGupta, A. (2001). Estimación de intervalos para una proporción binomial. Ciencia estadística, 101-117.

0 votos

Gracias por responderme. Creo que el segundo enfoque es el más útil para mí. No tengo ninguna experiencia con la estadística bayesiana, así que tengo que leer un poco más sobre eso y la distribución beta. Sólo tengo una pregunta sobre el paso 1 del segundo enfoque: ¿Por qué debería extraer de la distribución beta, y no de la distribución que sé que tiene p?

2 votos

@HelgaHolmestad porque se supone que p proviene de la distribución beta ;) beta es una distribución mucho mejor para p que la normal - está acotada en [0,1], mientras que la distribución normal oscila entre $-\infty$ a $+\infty$ . Además, aunque por alguna razón se conozcan de antemano la media y la varianza de p, se pueden encontrar fácilmente los parámetros de beta que corresponden a la media y la varianza que ya se conocen (véase stats.stackexchange.com/questions/12232/ ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X