Soy relativamente nuevo en A/B split-testing y no puedo envolver mi cerebro la idea de z-scores.
Yo sé que un z-score da una idea de cómo estadísticamente significativa el resultado es que se obtiene de un split-test.
Sin embargo, he encontrado muy pocos sitios web que explican A/B split-testing sin hablar mucho acerca de los tamaños de muestra. Estos artículos sugerido incluso que el z-score sí solo muestran significación estadística si los conjuntos de datos utilizados para calcular es lo suficientemente grande.
Así que me encontré con una prueba una cola. He hecho una modificación a un elemento de una página y comprueba cómo los cambios realizados en términos de tasas de conversión. Este fue el resultado:
| Treatment | Hits | Conv | % | z-Score |
|-------------|:----:|:----:|:------:|--------:|
| Control | 701 | 200 | 28.53% | - |
| Treatment 1 | 699 | 228 | 32.62% | 1.66 |
Confianza (z-Score): 95.17%, la mejora de la tasa de conversión: 14.3%
Sin embargo, pensé que después de este resultado carece de dos cosas:
- Yo no definir un mínimo deseado de mejora en el porcentaje en mi hipótesis, e. g. "El tratamiento 1 realiza al menos un 20% mejor que el Control"
- Yo no definir un tamaño de muestra requerido, pero sólo deja que la ejecución de la prueba hasta que un z-score >= 1.65 (que he oído es una mala cosa que hacer).
Entonces decidí que yo quiero, al menos, un 22% de mejora de la tasa de conversión y que necesitaba 2,046 conjuntos de datos para decir si o no este objetivo se logró (calculado con base en este blog).
La hipótesis era entonces:
Tratamiento 1 mejora la tasa de conversión de al menos el 22% y puedo decir, con una probabilidad de 95% de que este cambio no es debida al azar.
El resultado final (2,046 conjuntos de datos) mostró que el Tratamiento 1 no mejoran nada realmente y que me puede rechazar la hipótesis:
| Treatment | Hits | Conv | % | z-Score |
|-------------|:----:|:----:|:------:|--------:|
| Control | 1020 | 305 | 29,90% | - |
| Treatment 1 | 1026 | 308 | 30,02% | 0,06 |
Lo que no entiendo es: ¿Qué hizo el z-score de los 1.400 conjuntos de datos me dicen en la llanura inglés? ¿Qué es lo bueno en este caso?