60 votos

Intervalo de confianza para el muestreo Bernoulli

Tengo una muestra aleatoria de variables aleatorias Bernoulli $X_1 ... X_N$ , donde $X_i$ son i.i.d. r.v. y $P(X_i = 1) = p$ y $p$ es un parámetro desconocido.

Obviamente, se puede encontrar una estimación para $p$ : $\hat{p}:=(X_1+\dots+X_N)/N$ .

Mi pregunta es cómo puedo construir un intervalo de confianza para $p$ ?

65voto

Hertanto Lie Puntos 965
  • Si la media, $\hat{p}$ , no está cerca $1$ o $0$ y el tamaño de la muestra $n$ es lo suficientemente grande (es decir $n\hat{p}>5$ y $n(1-\hat{p})>5$ el intervalo de confianza se puede estimar mediante una distribución normal y el intervalo de confianza se construye así:

    $$\hat{p}\pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

  • Si $\hat{p} = 0$ y $n>30$ El $95\%$ intervalo de confianza es aproximadamente $[0,\frac{3}{n}]$ (Javanovic y Levy, 1997) lo contrario es válido para $\hat{p}=1$ . La referencia también analiza el uso de $n+1$ y $n+b$ (este último para incorporar información previa).

  • Si no Wikipedia proporciona una buena visión general y señala a Agresti y Couli (1998) y Ross (2003) para obtener detalles sobre el uso de estimaciones distintas de la aproximación normal, la puntuación de Wilson, Clopper-Pearson o los intervalos de Agresti-Coull. Éstos pueden ser más precisos cuando los supuestos anteriores sobre $n$ y $\hat{p}$ no se cumplen.

R proporciona funciones binconf {Hmisc} y binom.confint {binom} que se puede utilizar de la siguiente manera:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "Approximate is better than 'exact' for interval estimation of binomial proportions". The American Statistician 52: 119-126.

Jovanovic, B. D. y P. S. Levy, 1997. Una mirada a la regla de tres. The American Statistician Vol. 51, No. 2, pp. 137-139

Ross, T. D. (2003). "Accurate confidence intervals for binomial proportion and Poisson rate estimation". Computers in Biology and Medicine 33: 509-531.

13voto

alexs77 Puntos 36

Intervalos de confianza de máxima verosimilitud

La aproximación normal a la muestra Bernoulli se basa en tener un tamaño de muestra relativamente grande y proporciones de muestra alejadas de las colas. La estimación de máxima verosimilitud se centra en las probabilidades transformadas en logaritmos y esto proporciona intervalos no simétricos y eficientes para $p$ que debería usarse en su lugar.

Defina las probabilidades logarítmicas como $\hat{\beta}_0 = \log(\hat{p}/(1-\hat{p}))$

A 1- $\alpha$ CI para $\beta_0$ está dada por:

$$\text{CI}(\beta_0)_\alpha = \hat{\beta}_0 \pm \mathcal{Z}_{\alpha/2} \sqrt{1/(n\hat{p}(1-\hat{p})}$$

Y esto se vuelve a transformar en un intervalo (no simétrico) para $p$ con:

$$\text{CI}(p)_\alpha = 1/(1+\exp(-\text{CI}(\beta_0)_\alpha)$$

Este IC tiene la ventaja añadida de que las proporciones se sitúan en el intervalo entre 0 o 1, y el IC es siempre más estrecho que el intervalo normal, a la vez que es del nivel correcto. Se puede obtener esto muy fácilmente en R especificando:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Intervalos de confianza binomiales exactos

En muestras pequeñas, la aproximación normal a la MLE -aunque mejor que la aproximación normal a la proporción de la muestra- puede no ser fiable. Eso está bien. $Y = n\hat{p}$ se puede considerar que sigue un binomio $(n,p)$ densidad. Los límites para $\hat{p}$ se puede encontrar tomando los percentiles 2,5 y 97,5 de esta distribución.

$$\text{CI}_\alpha = (F^{-1}_{\hat{p}}(0.025), F^{-1}_{\hat{p}}(0.975))$$

Raramente posible a mano, un exacto se puede obtener un intervalo de confianza binomial para $p$ utilizando métodos computacionales.

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Mediana de los intervalos de confianza insesgados

Y si $p$ es 0 o 1 exactamente, se puede utilizar un estimador insesgado de la mediana para obtener estimaciones de intervalo no singulares basadas en la función de probabilidad insesgada de la mediana. Se puede tomar trivialmente el límite inferior del caso todo-0 como 0 WLOG. El límite superior es cualquier proporción $p_{1-\alpha/2}$ que satisface:

$$p_{1-\alpha/2} : P(Y = 0)/2 + P(Y > y) > 0.975$$

También se trata de una rutina computacional.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Los dos últimos métodos se aplican en el epitools en R.

2voto

Aaron Puntos 36

El Intervalo de puntuación de Wilson funciona bien en general para la inferencia del parámetro de probabilidad binomial. El rendimiento de varios intervalos de confianza se examina en Brown, Cai y DasGupta (2001) y el intervalo de puntuación de Wilson funciona bien en comparación con otros intervalos; en particular, funciona mejor que el intervalo de Wald. El intervalo de puntuación de Wilson tiene una serie de propiedades de consistencia útiles y puede ampliarse para manejar poblaciones tanto finitas como infinitas (véase O'Neill 2021 para más detalles).

El intervalo de puntuación de Wilson puede aplicarse para poblaciones finitas o infinitas en R utilizando el CONF.prop en la función stat.extend paquete . En el código siguiente damos un ejemplo sencillo de un intervalo de confianza del 95% para el parámetro de probabilidad de una superpoblación infinita. Para obtener un intervalo de confianza para la cantidad de la proporción en una población finita (ya sea la población completa o la parte no muestreada) puede añadir entradas para el tamaño de la población N y el valor lógico unsampled .

#Set parameters
n <- 40
p <- 0.15

#Generate some binary data
set.seed(1)
x <- sample(c(0,1), size = n, replace = TRUE, prob = c(1-p, p))

#Generate a 95% confidence interval for probability parameter
library(stat.extend)
CONF.prop(x, alpha = 0.05)

        Confidence Interval (CI) 

95.00% CI for proportion parameter for infinite population 
Interval uses 40 binary data points from data x with sample proportion = 0.1500 

[0.0706118771732036, 0.290723243664897]

0voto

Mathstudent Puntos 166

Supongamos que $X_1,...,X_n$ es una muestra de éxitos y fracasos de una población Bernoulli con probabilidad de éxito $p$ y se nos pide que encontremos un intervalo de confianza del 75% para $p$ .

Una solución es invertir la FCD de una distribución binomial. Dado que $Y=\sum X_i\sim \text{Binomial}(n,p)$ podemos definir un $100(1-\alpha)\%$ intervalo de confianza para $p$ como $$\bigg\{p:F_Y(y;n,p)\ge\alpha/2 \text{ and } 1-F_Y(y-1;n,p)\ge\alpha/2 \bigg\}$$ donde $F_Y(y;n,p)=P(Y\le y)$ es la FCD de $Y$ .

Una solución aproximada es observar que $\text{Var}[\sum X_i]=np(1-p)\implies\text{Var}[\bar{X}]=p(1-p)/n$ , donde $\bar{X}=\frac{1}{n}\sum X_i$ y construir un $100(1-\alpha)\%$ intervalo de confianza para $p$ invirtiendo una prueba de Wald $$\bigg\{p: \Phi\bigg(\frac{\bar{x}-p}{\bar{x}(1-\bar{x})}\bigg)\ge \alpha/2 \text{ and } 1-\Phi\bigg(\frac{\bar{x}-p}{\bar{x}(1-\bar{x})}\bigg)\ge \alpha/2\bigg\}$$ $$= \bar{x}\pm z_{1-\alpha/2}\hat{\text{se}}$$ donde $\hat{\text{se}}=\sqrt{\bar{x}(1-\bar{x})/n}$ , $\Phi(\cdot)$ es la FCD de una distribución normal estándar, y $z_{1-\alpha/2}$ es el $(1-\alpha/2)^{th}$ percentil de la distribución normal estándar. La prueba de Wald se aproxima a la distribución muestral binomial de $\sum X_i$ o, lo que es lo mismo, la distribución de $\bar{X}$ utilizando una distribución normal y lo expresa en términos de la FDA normal estándar.

Por ejemplo, si observa $y=\sum x_i=6$ de $n=10$ ensayos, $\bar{x}=0.6$ . El $75\%$ El intervalo de confianza de la inversión de la CDF binomial es (0,37, 0,8). Si $p$ es realmente $0.37$ observaríamos un resultado tan o más extremo que $\bar{x}=0.6$ sólo $12.5\%$ del tiempo. Asimismo, si $p$ es realmente $0.8$ entonces $12.5\%$ de las veces observaríamos un resultado tan o más extremo que $\bar{x}=0.6$ . De esta manera estamos $75\%$ confía en que la incógnita fijada sea cierta $p$ está en $(0.37, 0.8)$ . Los intervalos construidos de esta manera cubrirán la verdad fija desconocida $p$ $75\%$ del tiempo en el muestreo repetido, y la nuestra es una de esas muestras. El intervalo de confianza de la inversión de una prueba de Wald es (0,42, 0,78).

$$\text{Inverting Binomial Sampling Distribution CDF} $$ $$\text{(PMF Depicted Below)}$$ enter image description here

enter image description here

$$\text{Inverting Normal CDF Approximating X-bar Sampling Distribution} $$ $$\text{(Normal Density Depicted Below)}$$ enter image description here

$$\text{One-sided P-value from Inverting Binomial CDF} $$ enter image description here

La curva de confianza anterior muestra los valores p y los intervalos de confianza de todos los niveles a partir de la inversión de la FDA binomial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X