4 votos

Dado un tamaño de población y una tasa de ocurrencia conocidos, ¿cómo calculo un tamaño de muestra razonable?

Estoy trabajando con la automatización de algunos de los datos de recuperación, y ahora necesita hacer alguna verificación de los resultados. El sistema ha detectado automáticamente el 6% de los registros, y me gustaría para determinar un tamaño razonable de los restantes registros de comprobar manualmente, la cual me dará cierta seguridad de que otros errores, si los hay, están identificados.

Aquí está el rápido números:

  • 2,502 total de registros
  • 152 (6%) de los errores conocidos

Digamos que yo quiero un 80% de probabilidades de detectar errores en el resto de ~2,350 registros. ¿Cuántos debo solicitar ser examinado? Existe una sencilla fórmula para calcular con diferentes umbrales?


Actualización: Gracias por el aporte, todo el mundo.

Mi objetivo es determinar un número aproximado de "buena" de registros que deben ser revisados manualmente para determinar si todavía hay errores. Estos son todos los resultados que fueron etiquetados como "alta confianza" por el sistema automatizado que hemos utilizado, así que en teoría se espera de ellos para ser 100% exacto.

Yo estoy tratando de ser cuidadoso en no fiarse plenamente el proceso automatizado, pero también consciente de que el costo de la revisión de estos. Me gustaría que la estimación de la revisión tomará aproximadamente 1 minuto por cada resultado; así que la revisión de todos los 2500 sería de 40 horas de trabajo.

1voto

blowmage Puntos 2587

Distribución hipergeométrica para el rescate.

El complementario de encontrar al menos un error en 2350 muestras sabiendo que la ocurrencia de la tasa es de 6% a partir del 26 de ensayos es de 0,80. La comprobación de sólo 48 hace llegar al 95% de probabilidad.

Algunos simple código R que el trazado de la distribución acumulativa de la siguiente manera:

> pe <- 0.06
> barplot(sapply(seq(55), function(i) 1-phyper(0,2350*pe, 2350*(1-pe), i)))

Por supuesto que el 6% no se aplica nada más porque si el sistema es bueno, la tasa de incidencia debe ser menor en el resto de los artículos 2350 pero luego me permiten modificar la variable pe en consecuencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X