16 votos

La estimación de la probabilidad en un proceso de Bernoulli, mediante un muestreo de hasta 10 fallos: está sesgada?

Supongamos que tenemos un proceso de Bernoulli con probabilidad de fallos $q$ (que va a ser pequeños, por ejemplo, $q \leq 0.01$) de los que nos muestra hasta que nos encontramos con $10$ fallas. Así podemos estimar la probabilidad de fallo como $\hat{q}:=10/N$ donde $N$ es el número de muestras.

Pregunta: Es $\hat{q}$ una estimación sesgada de $q$? Y, si es así, ¿hay alguna forma de corregirlo?

Me preocupa que insistir en la última muestra es una falla de los sesgos en la estimación.

10voto

JoanComasFdz Puntos 131

Es cierto que $\hat{q}$ es una estimación sesgada de $q$ en el sentido de que $\text{E}(\hat{q}) \neq q$, pero no debe necesariamente dejar que esto te disuada. Esta misma situación puede ser utilizado como una crítica contra la idea de que siempre debemos utilizar imparcial de los peritos, porque aquí el sesgo es más que un artefacto de la particular experimento que estamos haciendo. Los datos se ven exactamente como lo haría si habíamos elegido el número de muestras por adelantado, así que ¿por qué nuestras inferencias cambio?

Curiosamente, si se recogen los datos de esta manera y, a continuación, escriba la función de probabilidad, tanto en virtud del binomio (tamaño de muestra fijo) y binomial negativo de modelos, usted encontrará que los dos son proporcionales a la una de la otra. Esto significa que $\hat{q}$ es sólo el ordinario de la estimación de máxima verosimilitud bajo el modelo binomial negativo, que, por supuesto, es perfectamente razonable estimado.

9voto

Alan Puntos 7273

No es insistir en que el último ejemplo es un error que los sesgos en la estimación, es tomar el recíproco de $N$

Por lo $\mathbb{E}\left[\frac{N}{10}\right] =\frac{1}{q}$ en tu ejemplo, pero en el $\mathbb{E}\left[\frac{10}{N}\right] \not = q$. Esto está cerca de la comparación de la media aritmética con la media armónica

La mala noticia es que el sesgo puede aumentar como $q$ se hace más pequeño, aunque no por mucho una vez a $q$ ya es pequeño. La buena noticia es que el sesgo disminuye a medida que el número de errores aumenta. Parece que si requieren $f$ fracasos, entonces el sesgo está acotada arriba por un factor multiplicativo de a $\frac{f}{f-1}$ pequeña $q$; usted no desea que este enfoque cuando se detiene después de la primera falta

Parar después de $10$ fallas, con $q=0.01$ obtendrá $\mathbb{E}\left[\frac{N}{10}\right] = 100$ pero $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.011097$, mientras que con $q=0.001$ obtendrá $\mathbb{E}\left[\frac{N}{10}\right] = 1000$ pero $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.001111$. Un sesgo de aproximadamente un $\frac{10}{9}$ factor multiplicativo

7voto

Doug Kavendek Puntos 1244

Como complemento a dsaxton la respuesta, aquí están algunas de las simulaciones en la I muestra la distribución de muestreo de $\hat{q}$ al$k=10$$q_0 = 0.02$:

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Se parece a $\mathbb{E}\left[ \hat{q}\right] \approx 0.022$, que es un lugar pequeño sesgo en relación a la variabilidad en $\hat{q}$.

histogram of q_hat

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X