11 votos

R - power.prop.test, prop.test y tamaños de muestra desiguales en pruebas A/B

Digamos que quiero saber qué tamaño de muestra necesito para un experimento en el que busco determinar si la diferencia entre dos proporciones de éxito es estadísticamente significativa o no. Este es mi proceso actual:

  1. Examinar los datos históricos para establecer predicciones de referencia. Digamos que, en el pasado, tomar una acción da como resultado una tasa de éxito del 10%, mientras que no tomarla da como resultado una tasa de éxito del 9%. Supongamos que estas conclusiones no han sido validadas estadísticamente, pero que se basan en cantidades relativamente grandes de datos (más de 10.000 observaciones).

  2. Introduce estas suposiciones en power.prop.test para obtener lo siguiente:

     power.prop.test(p1=.1,p2=.11,power=.9)
    
     Two-sample comparison of proportions power calculation 
    
              n = 19746.62
             p1 = 0.1
             p2 = 0.11
      sig.level = 0.05
          power = 0.9
    alternative = two.sided
  3. Así que esto me dice que necesitaría un tamaño de muestra de ~20000 en cada grupo de una prueba A/B para detectar una diferencia significativa entre las proporciones.

  4. El siguiente paso es realizar el experimento con 20.000 observaciones en cada grupo. El grupo B (sin acción) tiene 2.300 aciertos de 20.000 observaciones, mientras que el grupo A (con acción) tiene 2.200 aciertos de 20.000 observaciones.

  5. Haz un prop.test

    prop.test(c(2300,2100),c(20000,20000))
    
    2-sample test for equality of proportions with continuity correction
    
    data:  c(2300, 2100) out of c(20000, 20000)
    X-squared = 10.1126, df = 1, p-value = 0.001473
    alternative hypothesis: two.sided
    95 percent confidence interval:
    0.003818257 0.016181743
    sample estimates:
    prop 1 prop 2 
    0.115  0.105
  6. Por tanto, decimos que podemos rechazar la hipótesis nula de que las proporciones son iguales.

Preguntas

  • ¿Es este un método adecuado o, al menos, va por el buen camino?
  • ¿Podría especificar alt="greater" en prop.test y confiar en el valor p a pesar de que power.prop.test era para una prueba de dos caras?
  • ¿Qué pasa si el valor p es superior a 0,05 en la prueba prop. ¿Debo asumir que tengo una muestra estadísticamente significativa pero que no hay una diferencia estadísticamente significativa entre las dos proporciones? Además, ¿es la significación estadística inherente al valor p en prop.test - es decir, es necesario el power.prop.test?
  • ¿Qué pasa si no puedo hacer un reparto 50/50 y necesito hacer, por ejemplo, un reparto 95/5? ¿Existe algún método para calcular el tamaño de la muestra en este caso?
  • ¿Y si no tengo ni idea de cuál debe ser mi predicción de base para las proporciones? Si adivino y las proporciones reales están muy lejos, ¿invalidaré mi análisis?

Cualquier otra laguna que pudierais rellenar sería muy apreciada - mis disculpas por lo enrevesado de este post. Gracias.

5voto

Mat Puntos 196

¿Es este un método adecuado o, al menos, va por el buen camino?

Sí, creo que es un buen enfoque.

¿Podría especificar alt="mayor" en prop.test y confiar en el valor p aunque power.prop.test fuera para una prueba de dos caras?

No estoy seguro, pero creo que tendrás que usar alternative="two.sided" para prop.test .

¿Qué pasa si el valor p es superior a 0,05 en la prueba prop. ¿Debo asumir que tengo una muestra estadísticamente significativa pero que no hay una diferencia estadísticamente significativa entre las dos proporciones? Además, ¿es la significación estadística inherente al valor p en prop.test - es decir, es necesario el power.prop.test?

Sí, si el valor p es superior a 0,05, no hay confianza en que exista una diferencia detectable entre las muestras. Sí, la significación estadística es inherente al valor p, pero la prueba de potencia.prop. sigue siendo necesaria antes de para determinar el tamaño de la muestra. power.prop.test se utiliza para configurar su experimento, prop.test se utiliza para evaluar los resultados de su experimento.

BTW - Puedes calcular el intervalo de confianza para cada grupo y ver si se superponen a tu nivel de confianza. Puede hacerlo siguiendo estos pasos para Cálculo de muchos intervalos de confianza a partir de una distribución t .

Para visualizar lo que quiero decir, mira esta calculadora con los datos de tu ejemplo introducidos: http://www.evanmiller.org/ab-testing/chi-squared.html#!2300/20000;2100/20000@95

Aquí está el resultado:

confidence interval for each group

Fíjate en el gráfico que ofrece que muestra el rango del intervalo de confianza para cada grupo.

¿Qué pasa si no puedo hacer un reparto al 50 % y tengo que hacer, por ejemplo, un reparto 95/5? ¿Existe algún método para calcular el tamaño de la muestra en este caso?

Por eso hay que utilizar power.prop.test porque la división no importa. Lo que importa es que se cumpla el tamaño mínimo de la muestra para cada grupo. Si se hace una división 95/5, se tardará más tiempo en alcanzar el tamaño mínimo de la muestra para la variación que obtiene el 5%.

¿Y si no tengo ni idea de cuál debe ser mi predicción de base para las proporciones? Si adivino y las proporciones reales están muy lejos, ¿invalidaré mi análisis?

Tendrá que trazar una línea en la arena, adivinar un efecto detectable razonable y calcular el tamaño de la muestra necesario. Si no tiene suficiente tiempo, recursos, etc. para cumplir con el tamaño de muestra calculado en power.prop.test Entonces tendrás que reducir tu efecto detectable. Normalmente lo configuro así y paso por diferentes delta para ver cuál sería el tamaño de la muestra para ese efecto.

#Significance Level (alpha)
alpha <- .05

# Statistical Power (1-Beta)
beta <- 0.8

# Baseline conversion rate
p <- 0.2   

# Minimum Detectable Effect
delta <- .05

power.prop.test(p1=p, p2=p+delta, sig.level=alpha, power=beta, alternative="two.sided")

2 votos

Javid, cuando cites parte de la pregunta en tu respuesta, podrías considerar el uso de la marca destinada a indicar una cita en bloque ( > al principio del bloque citado) en lugar de ponerlo en negrita.

4 votos

"Si usted hace una división 95/5, entonces sólo tardará más en alcanzar el tamaño mínimo de la muestra para la variación que está obteniendo el 5%". - aunque este es un enfoque conservador para satisfacer al menos la potencia especificada de la prueba, en realidad estará excediendo la potencia especificada introducida en power.prop.test si tiene un grupo "pequeño" y otro "grande" (por ejemplo, n1 = 19746, n2 = 375174). Probablemente sería deseable un método más exacto para cumplir los requisitos de potencia para tamaños de muestra desiguales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X