4 votos

Cómo calcular el número de ensayos para obtener un resultado "significativo

Disculpas por la pregunta de novato, pero no he entendido lo que he leído en esta área, por lo que los punteros a los métodos correctos se centraría mi atención.

Tengo un programa que, cuando se prueba repetidamente de la misma manera, falla de vez en cuando, digamos una de cada 20 veces.

Si realizo un cambio para solucionar el problema, ¿cuántas veces debo probarlo para estar seguro (digamos un 95%) de que el software modificado es realmente mejor que el original?

De forma más general: si una prueba falla una de cada b veces. Después de la fije cuántas veces (c) debe funcionar sin ningún fallo para estar seguro de d%.

0 votos

Esta cuestión me sigue preocupando y no me satisfacen las dos respuestas dadas. Mis disculpas a Greg y Thomas. No sé si esto es correcto, pero he experimentado con el simple cálculo de la distribución binomial.

0 votos

Oops - se me pasó la fecha límite de edición... ¡No sé si esto es correcto, pero he experimentado con el simple cálculo de la distribución binomial - es decir, (n! / ((n-k)! k!)) p^k (1-p)^(n-k) donde n = número de ensayos, k = número de fallos, p = probabilidad de fallo. En mi problema actual, el código defectuoso me dio 3 fallos en 9 intentos - supongamos que esto implica una probabilidad de 1/3. La probabilidad de 0 fallos en 9 es del 2,6%; mejor aún, 0 fallos en 15 intentos es del 0,23%. Eso me da una idea.

4voto

Eero Puntos 1612

Una regla empírica dice que si se realizan n ensayos y no se observan sucesos, el intervalo de confianza del 95% para la tasa de sucesos es de 0 a 3/n. Por tanto, si quiere tener un 95% de confianza en que la proporción real de fallos es inferior a p, realice 3/p ensayos y, si no falla ninguno, puede tener un 95% de confianza en que la proporción es inferior a p.

0 votos

(+1) Esto responde a una variante de la pregunta, que interpreta que "arreglar" significa "eliminar por completo": encuentra (aproximadamente) el poder de distinguir una tasa de fallos del 0% de una tasa del $100 p$ % de fracaso. Por eso el tamaño de la muestra es mucho menor que los estimados por @Thomas Levine, que interpreta "arreglar" en el sentido de "mejor que el original" (pero quizá no perfecto).

3voto

Marcel Lamothe Puntos 133

Hay que adivinar cuál va a ser la nueva tasa de fracaso (tal vez basándose en un estudio piloto) y luego calcular la probabilidad de error de tipo II.

Existen fórmulas para ello pero a veces me resulta más fácil y convincente simular los resultados. Aquí hay un poco de código R descuidado que utilizará simulaciones para estimar la potencia. (El enlace es para una prueba t pareada, y he simulado una prueba t de dos muestras, por lo que tendría que ajustar uno de estos para que sean equivalentes).

#Compare the failure rates of two random samples
fail <- function(n,p) rbinom(n,1,p)
#It would be good to change t.test to a more powerful test (and see how that affects power).
compare <- function (n,p.old=1/20,p.new=1/10) t.test(fail(n,p.old),fail(n,p.new))$p.value

#Use 50 simulations. Increase this for higher precision
simulations<-50

#Parametrize sample size
samplesize<-seq(50,1000,10)
#What's the 95%ile p-value of the simulations
q95_p.value<-function(samplesize) quantile(replicate(simulations,compare(samplesize)),0.95)

#Plot the p-values
plot(samplesize,sapply(samplesize,q95_p.value),ylim=0:1,ylab='95%ile simulated p-value')
#If the 95%ile p-value for the sample size is below the line, then power is probably above 95%
abline(h=0.05)

Este es el gráfico resultante suponiendo que la tasa de fallos antigua sea $\frac{1}{20}$ y el nuevo $\frac{1}{10}$ . Si el valor p del 95% del tamaño de la muestra está por debajo de la línea, la potencia es probablemente superior al 95%.

Plot of simulated p-values

Probablemente haya un paquete R que lo haga mejor.

Y debo decir que esos tamaños de muestra parecen terriblemente grandes. Tal vez cometí un error en alguna parte.

1 votos

La idea es correcta y el tamaño de las muestras debe ser grande. Podrías entender por qué calculando realmente la curva de potencia en lugar de simularla. Ten cuidado al elegir el ejemplo: No creo que nadie tomaría una nueva tasa de fracaso de $1/10$ sea una mejora con respecto a $1/20$ ¡! :-)

0 votos

Oh oops. Bueno, vamos a fingir que eres una mente maligna que está tratando de hacer tropezar a la gente.

0voto

Keshav Chetty Puntos 8

Creo que la respuesta que busca es

Número de ensayos = log(1-CF)/log(1-porcentaje de fallos),

donde CF es el factor de confianza que se busca.

Para su ejemplo, en el que desea una confianza del 95% de que ha resuelto un problema que se espera que ocurra el 5% de las veces, sería

Número de ensayos = log(1-,95)/log(1-,05) = 59 ensayos redondeando hacia arriba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X