Hay varios problemas con su enfoque. En primer lugar, usted quiere utilizar los intervalos de confianza para algo que fueron no diseñado para. Si $p$ varía, entonces el intervalo de confianza no lo hará mostrarle cómo varía. Consulte ¿Por qué un intervalo de confianza (IC) del 95% no implica una probabilidad del 95% de contener la media? para saber más sobre los intervalos de confianza. Además, el uso de la aproximación normal para la proporción binomial y sus intervalos de confianza no es una buena idea, como se describe en Marrón y otros (2001) .
De hecho, por su descripción parece que quiere estimar el Intervalo creíble bayesiano , es decir, el intervalo que contendrá cierta fracción de $p$ de la distribución. Sí, he dicho Bayesiano , ya que, de hecho, usted ya definió su problema como un modelo bayesiano. Usted dice que asume que $p$ es una variable aleatoria, mientras que en el entorno frecuentista $p$ sería un parámetro fijo. Si ya lo ha asumido, ¿por qué no utilizar un modelo bayesiano para sus datos? Estaría utilizando modelo beta-binomial (véase también Introducción al modelo Beta-Binomial papel de Dan Navarro y Amy Perfors). En casos como éste es extremadamente fácil estimar dicho modelo. Podemos definirlo como sigue:
$$ X \sim \mathrm{Binomial}(N, p) \\ p \sim \mathrm{Beta}(\alpha, \beta) $$
así, sus datos $X$ sigue una distribución binomial parametrizada por $N$ y $p$ , donde $p$ es una variable aleatoria. Suponemos que distribución beta con parámetros $\alpha$ y $\beta$ como antes para $p$ . Supongo que si quieres utilizar el método frecuentista, no tienes ningún antes conocimiento sobre la posible distribución de $p$ Así que elegirías "poco informativo" antes parametrizado por $\alpha = \beta = 1$ o $\alpha = \beta = 0.5$ (si lo prefiere, puede traducir esos parámetros a media y precisión o media y varianza ). Después de actualización de su antes , posterior distribución de $p$ es simplemente una distribución beta parametrizada por
$$ \alpha' = \alpha + \text{total number of successes} \\ \beta' = \beta + \text{total number of failures} $$
con la media
$$ E(X) = N \frac{\alpha'}{\alpha'+\beta'} $$
Para leer más sobre el cálculo de otras cantidades de esta distribución consulte el artículo de Wikipedia sobre distribución beta-binomial . Se pueden calcular los intervalos creíbles numéricamente (a) invirtiendo numéricamente la función de distribución acumulativa de la distribución beta-binomial, o (b) muestreando un gran número de valores aleatorios de la distribución beta-binomial y luego calculando Cuantiles de la muestra de ella. El segundo enfoque es bastante fácil, ya que sólo tiene que repetir secuencialmente el siguiente procedimiento:
- dibujar $p$ de la distribución beta parametrizada por $\alpha'$ y $\beta'$ ,
- dibujar $x$ de una distribución binomial parametrizada por $p$ y $N$ .
hasta que se extraiga una muestra lo suficientemente grande como para encontrarla segura para calcular las cantidades de interés.
Por supuesto, si se conoce la media y la desviación estándar de $p$ y se insiste en utilizar la distribución normal para ello, también se puede utilizar la simulación, pero con el uso de la distribución normal para simular los valores de $p$ . A continuación proporciono un ejemplo de código en R para dicha simulación.
R <- 1e5 # number of samples to draw in simulation
N <- 500 # known N
mu <- 0.3 # known mean of p
sigma <- 0.07 # known standard deviation of p
p <- rnorm(R, mu, sigma) # simulate p
x <- rbinom(R, N, p) # simulate X
mean(x) # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)
O simplemente puede tomar los cuantiles apropiados utilizando la inversa de la función de distribución acumulativa normal y multiplicarlos por $N$ . No obstante, recuerde que no se trata de un intervalo de confianza, sino de un intervalo de credibilidad.
Brown, L.D., Cai, T.T., & DasGupta, A. (2001). Estimación de intervalos para una proporción binomial. Ciencia estadística, 101-117.