El caso es que estaba planeando probar una nueva estrategia en mi sitio web. Una típica prueba AB para una nueva página de inicio. Una estrategia es la actual, el control; la otra es la variante, la nueva estrategia. Tengo una tasa de conversión del 30%. Utilizo una calculadora de tamaño de muestra que me dice que mi tamaño de muestra debería ser de 1.335 para cada variante. Puedo obtener este número de accesos en tres días de prueba. Sin embargo, he visto algunas "mejores prácticas de pruebas AB" que me dicen que mi prueba debería durar al menos una semana, debido a las estacionalidades. ¿Qué debe prevalecer? ¿El número de días (al menos una semana) o el tamaño de la muestra calculada?
Respuesta
¿Demasiados anuncios?El tamaño de la muestra de la prueba ab se basa en el número de puntos de datos, o unidades de aleatorización, no en el número de días del experimento.
La recomendación de realizar experimentos durante una semana como mínimo se debe a razones de validez externa: es posible que tenga una población diferente de usuarios en fin de semana o entre semana, incluso el mismo usuario puede comportarse de forma diferente. Si sólo realiza un experimento los fines de semana, no puede generalizar directamente los efectos experimentales a los días laborables.
Referencia: Experimentos controlados en línea fiables: A Practical Guide to A/B Testing, capítulo 2