En primer lugar, me tomé un tiempo para comprobar que la prueba z no funciona bien cuando la probabilidad de éxito en el grupo de control es tan pequeña como el 10%.
En segundo lugar, he aquí algunos resultados utilizando una prueba exacta de Fisher unilateral que rechaza la hipótesis nula de que las probabilidades de éxito en los dos grupos son iguales cuando hay un número significativamente mayor de más éxitos en el grupo de tratamiento que en el grupo de control. (Esto significa que hay que descartar como casualidad cualquier resultado con un número significativamente mayor de éxitos en el grupo de control).
Todos los resultados que aparecen a continuación corresponden a la prueba exacta de Fisher, y los tamaños de las muestras son iguales en los dos grupos. He observado casos para $n = n_T = n_C = 50, 100,$ y $200.$
$n = 50.$ Supongamos que la probabilidad de éxito en el grupo de control es $\pi_C = 0.02$ : Si $\pi_T = 0.15,$ entonces el valor P es la media de $.07.$ Si $\pi_T = 0.2,$ , el valor P medio disminuye a $.022.$ Y si $\pi_T = 0.25,$ el valor p medio disminuye a $.007.$ Esto se resume en el primer grupo de abajo, y el segundo grupo es para $\pi_C = 0.1.$
ppc ppt Pv
n=50 .02 .15 .07
.20 .022
.35 .007
.10 .25 .11 # Scenario (b) below
.30 .05
.35 .021 # Scenario (a) below
.40 .008
n=100 .02 .10 .06
.15 .009
.20 .001
.10 .20 .10
.25 .03
.30 .007
n=200 .02 .05 .16
.10 .009
.15 .0003
.10 .15 .17
.20 .028
.25 .003
.30 .0002
Espero que puedas ver que esto te da una idea aproximada de las diferencias entre $\pi_C$ y $\pi_T$ puede detectarse de forma fiable y a qué nivel de significación, para cada uno de los tres tamaños de muestra. Todos los resultados de los valores P medios se basan en la simulación y son están sujetos a pequeños errores de simulación.
Ejemplos con $n = 100$ y el grupo de control con la proporción de población de éxitos $\pi_C = .10$ : A un nivel de significación del 5%, usted raramente podrá detectar que $\pi_T = .20$ es una mejora, por lo general, ser capaz de detectar que $\pi_T = .25$ es una mejora, y rara vez pasan por alto que $\pi_T = .30$ es una mejora.
Si quieres, puedo mostrarte el código R que he utilizado para obtener estos resultados. Así podrías investigar otros escenarios. R está disponible gratuitamente en www.r-project.org
y no es necesario ningún conocimiento de R sería necesario para cambiar los números en mi programa y ejecutar escenarios adicionales.
Por último, no me fiaría ni siquiera de la prueba exacta de Fisher (cualquier tamaño de la muestra) a menos que que el número de éxitos en el grupo de tratamiento sea de al menos 5.
Adenda: Código R para las pruebas exactas de Fisher. Como se ha solicitado, aquí está el código R utilizado para obtener la información presentada anteriormente. Las respuestas para una de las situaciones específicas presentadas se muestra. Las constantes de las dos primeras líneas de código pueden cambiarse para investigar otras situaciones. (Los valores de la potencia, incluidos aquí, son no están tabulados arriba).
nc = 50; nt = 50 # sample sizes
ppc = .1; ppt = .35 # population proportions of Success--Scenario (a)
m = 10^6 # iterations for simulation (adjustable >= 10^4)
xc = rbinom(m, nc, ppc) # m-vector of numbers of control Successes
xt = rbinom(m, nt, ppt) # m-vector of numbers of treatment Successes
pv = phyper(xt-1, nt, nc, xt+xc, lower.tail=F) # m-vect of 1-sided P-vals
mean(pv) # avg of 1-sided P-vals
## 0.02102584
mean(pv <= .05) # P(Rej Ho | Ho False as specif) = Power against alt. specif
## 0.887290
Los gráficos de los valores P simulados se muestran en los siguientes histogramas. El escenario (a) es para $n_C = n_T = 50;\, \pi_C = .1, \pi_T = .35$ y en el escenario (b) $\pi_T = .25.$ Las líneas rojas punteadas verticales están en $0.5,$ por lo que la barra a la izquierda de la línea representa la potencia de la prueba, la probabilidad de rechazar $H_0: \pi_T = \pi_c$ contra las alternativas $H_a: \pi_T > \pi_C$ (como se especifica), en el nivel $\alpha = 5\%.$
Quizás el primer uso de este código debería ser verificar los valores en la tabla anterior para asegurarse de que no hay errores de imprenta.