24 votos

Con seguridad determinar tamaño de muestra para un B prueba

Soy un ingeniero de software que buscan construir un A/B testing tool. No tengo una sólida estadísticas de fondo, pero se han de hacer un poco de lectura en los últimos días.

Estoy siguiendo la metodología descrita aquí y se hará un resumen de los puntos relevantes, a continuación.

La herramienta permitirá a los diseñadores y expertos del dominio para configurar un sitio web para dividir el tráfico recibido en una dirección URL específica entre dos o más direcciones Url. Por ejemplo, el tráfico de llegar a http://example.com/hello1 se podría dividir entre http://example.com/hello1 y http://example.com/hello2. El tráfico se divide equitativamente entre las direcciones Url de destino y el rendimiento de los procesos de marketing en cada una de las Url de destino va a ser comparado.

En este experimento, el tamaño de la muestra N corresponderá a los visitantes. La prueba tendrá una medida de "conversiones", un término que describe cuando un visitante se compromete a una acción específica en un proceso de marketing. Las conversiones se expresan en porcentajes y una mayor tasa de conversión es deseable. Esto hace que la prueba de comparación de proporciones independientes. La herramienta debe ser capaz de ser fácilmente utilizado para producir pruebas con resultados seguros. La selección de un valor apropiado de N es importante.

En el artículo enlazado, por encima, un análisis de la potencia de dos proporciones independientes se emplea para encontrar N. Este método requiere conocer la tasa de conversión del control de antemano, así como especificar el destino deseado mejora de la conversión. También especifica un nivel de significación del 95% y un poder estadístico del 80%.

Preguntas:

  1. Es este método de determinación de N sonido? Si es así, ¿cuál es la forma más segura de determinar la tasa de conversión del control previo al inicio de la prueba?
  2. Hay sonido maneras de determinar N que no requieren que uno sabe que las tasas de conversión del control de antemano?
  3. Es la metodología en el artículo enlazado de sonido? Si no, ¿hay algún accesible y fácil de digerir métodos por ahí que usted podría enlace?

13voto

remunda Puntos 365

El método más común para realizar este tipo de pruebas es con el binomio proporción de intervalos de confianza (ver http://bit.ly/fa2K7B)

Usted no será capaz de llegar a saber la "verdadera" tasa de conversión de los dos caminos, pero esto le dará la capacidad para decir algo en el sentido de "Con 99% de confianza, es más eficaz en la conversión de B".

Por ejemplo: vamos a suponer que usted ha ejecutado 1000 ensayos ruta A. De estos 1000 ensayos, 121 fueron conversiones con éxito (tasa de conversión de 0.121) y nos gustaría un 99% intervalo de confianza en torno a este 0.121 resultado. El z-score para el 99% de intervalos de confianza es 2.576 (que acaba de ver esto en una tabla), por lo que de acuerdo a la fórmula: $$ \begin{aligned} \hat p &\pm 2.576\left(\sqrt{\frac{0.121 * (1 - 0.121)}{1000}}\right) \\ \hat p &\pm 0.027 \end{aligned} $$ Así que con un 99% de confianza podemos decir que $0.094 \le \hat p \le 0.148$ donde $\hat p$ es la "verdadera" tasa de conversión de proceso A.

Si queremos construir una similar intervalo para el proceso de B, podemos comparar los intervalos. Si los intervalos no se superponen, entonces, podemos decir con un 98% de confianza de que uno es mejor que el otro. (Recuerde, estamos a sólo 99% de confianza acerca de cada intervalo, por lo que nuestra total confianza acerca de la comparación es de 0,99 * 0.99)

Si los intervalos se sobreponen, entonces tenemos que correr más ensayos, o decidir que son muy similares en rendimiento a distinguir, lo que nos lleva a la parte difícil - determinar el $N$, el número de ensayos. No estoy familiarizado con otros métodos, pero con este método, usted no va a ser capaz de determinar $N$ frente a menos que usted tenga una estimación precisa de la actuación de ambos a y B hasta el frente. De lo contrario, sólo se va a tener que ejecutar ensayos hasta obtener muestras de modo que los intervalos separados.

La mejor de las suertes para usted. (Estoy enraizamiento para el proceso B, por cierto).

9voto

cbeleites Puntos 12461

En mi humilde opinión, tan lejos como sea, el post va en la dirección correcta. Sin embargo:

  • El método propuesto implícitamente hace dos supuestos: la línea de base de la tasa de conversión y la cantidad esperada de cambio. El tamaño de la muestra depende mucho de lo bien que se cumplen estos supuestos. Yo recomiendo que usted necesario calcular los tamaños de muestra para varias combinaciones de p1 y p2 que piensan que no son realistas. Que le dará una sensación acerca de cómo fiable el cálculo del tamaño de muestra es en realidad.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Así que si la actual tasa de conversión es del 9% en lugar del 10%, necesitará otro de 2000 casos para cada escenario para detectar el 10%-más-de-línea de base de la tasa de conversión de la nueva forma.

Después de que la prueba haya terminado, usted puede calcular los intervalos de confianza para las proporciones basadas en sus observaciones reales.

  • la última conclusión de menos de 3. (acerca de las pruebas múltiples escenarios) no es del todo correcta. Para ajustar por múltiples pruebas (en el ejemplo, varios = 2), no es suficiente para añadir otro $n$ pruebas para cada escenario de nuevo:
    Si ni B ni C son mejores que la versión original de Una, y las dos pruebas ./. B y B ./. C se hace como que se proponen, con $n$ de los casos para cada uno de los escenarios, entonces la probabilidad falsamente a cambio de la distancia de a es (1 - α)2 ≈ 10% (α: aceptado probabilidad de error de tipo I; sig.level anterior). En otras palabras, es casi dos veces tan grande como especificados inicialmente. El segundo problema con este enfoque es: realmente se puede hacer sin comparar B ./. C? ¿Qué vas a hacer si usted encuentra que tanto B como C es mejor que Una?

-1voto

Ashutosh Jindal Puntos 213

En lugar de calcular intervalos solapados se calcula la puntuación Z. Es algorítmicamente más fácil de implementar, y obtendrá estadísticas bibliotecas para ayudar.

Echa un vistazo: https://onlinecourses.science.psu.edu/stat200/node/53

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X