6 votos

Acelerar las pruebas a/b de la web con puntos de control del tamaño de la muestra

Antes de iniciar una prueba a/b con una ruta de control y otra experimental, puedo calcular el tamaño de la muestra necesario basándome en las estimaciones de la tasa de conversión de ambas rutas. Puedo obtener una buena estimación de la tasa de conversión del control consultando los datos históricos. Pero el índice de conversión de la ruta experimental es desconocido. Lo que quiero hacer es calcular una serie de tamaños de muestra diferentes basados en una variedad de sensibilidades.

Por ejemplo, puedo calcular el tamaño de las muestras para una sensibilidad del 10%, 15% y 20% (aumento de la conversión con respecto al control) que podría ser así:

Sensitivity   Required Sample Size
10%           1,961
15%           871
20%           490

Algunos de los leyendo He hecho dice que se debe calcular un tamaño de muestra único al inicio de la prueba y siempre ejecutar la prueba durante ese tiempo.

Pregunta:

  • ¿Hay algún problema con la comprobación de la significación estadística en múltiples tamaños de muestra precalculados y con la posibilidad de terminar una prueba antes de tiempo si he encontrado que los resultados son estadísticamente significativos?

Ejemplo:

En principio, estimo que la ruta experimental superará a la de control en un 15%. Pero una vez que he llegado a las 490 muestras descubro que la ruta experimental supera al control en un 20%, ¿puedo terminar la prueba y declarar que la ruta experimental aumenta la conversión en un 20%?

2voto

AdamSane Puntos 1825

Este enfoque no tiene las propiedades que tendría si se fijara el tamaño de la muestra de antemano.

La situación en la que se busca un resultado concreto mientras el experimento continúa y se tiene alguna "regla de parada" (detener el experimento antes de tiempo si se alcanza una situación concreta) es una versión de análisis secuencial ; véase también SPRT .

Tienes que tener cuidado de que las propiedades de tus reglas de decisión reales hagan lo que quieres: no puedes aplicar las propiedades de una situación a otra y esperar que funcione.

Por ejemplo En el caso de las pruebas secuenciales, no tendrá la potencia que ha calculado con los tamaños de muestra dados; los tamaños de muestra necesarios serán algo mayores. Por otro lado, cuando los efectos son sustanciales, a menudo se acaba parando antes, lo que significa tamaños de muestra más pequeños y decisiones más rápidas.

En concreto, ¿qué propiedades se ven afectadas si se pone fin a la prueba, por ejemplo, con 490 muestras, porque se observa una mejora del 20% con respecto al control?

Primero, las estimaciones estarán sesgadas Pero también se ven afectados los errores estándar, las tasas de error de tipo I y (como ya se ha mencionado) de tipo II, además de cualquier cosa que afecte a cualquiera de ellos.

El enlace de SPRT que he dado describe un enfoque general que se utiliza con la detención temprana con pruebas de hipótesis.


Phillip Good trabaja con el análisis secuencial discreto en su libro Pruebas de hipótesis por permutación, paramétricas y Bootstrap en la sección 6.7

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X