4 votos

¿Qué significa la puntuación z en inglés simple (en las pruebas de división A / B)?

Soy relativamente nuevo en A/B split-testing y no puedo envolver mi cerebro la idea de z-scores.

Yo sé que un z-score da una idea de cómo estadísticamente significativa el resultado es que se obtiene de un split-test.

Sin embargo, he encontrado muy pocos sitios web que explican A/B split-testing sin hablar mucho acerca de los tamaños de muestra. Estos artículos sugerido incluso que el z-score sí solo muestran significación estadística si los conjuntos de datos utilizados para calcular es lo suficientemente grande.

Así que me encontré con una prueba una cola. He hecho una modificación a un elemento de una página y comprueba cómo los cambios realizados en términos de tasas de conversión. Este fue el resultado:

| Treatment   | Hits | Conv | %      | z-Score |
|-------------|:----:|:----:|:------:|--------:|
| Control     | 701  | 200  | 28.53% | -       |
| Treatment 1 | 699  | 228  | 32.62% | 1.66    |

Confianza (z-Score): 95.17%, la mejora de la tasa de conversión: 14.3%

Sin embargo, pensé que después de este resultado carece de dos cosas:

  1. Yo no definir un mínimo deseado de mejora en el porcentaje en mi hipótesis, e. g. "El tratamiento 1 realiza al menos un 20% mejor que el Control"
  2. Yo no definir un tamaño de muestra requerido, pero sólo deja que la ejecución de la prueba hasta que un z-score >= 1.65 (que he oído es una mala cosa que hacer).

Entonces decidí que yo quiero, al menos, un 22% de mejora de la tasa de conversión y que necesitaba 2,046 conjuntos de datos para decir si o no este objetivo se logró (calculado con base en este blog).

La hipótesis era entonces:

Tratamiento 1 mejora la tasa de conversión de al menos el 22% y puedo decir, con una probabilidad de 95% de que este cambio no es debida al azar.

El resultado final (2,046 conjuntos de datos) mostró que el Tratamiento 1 no mejoran nada realmente y que me puede rechazar la hipótesis:

| Treatment   | Hits | Conv | %      | z-Score |
|-------------|:----:|:----:|:------:|--------:|
| Control     | 1020 | 305  | 29,90% | -       |
| Treatment 1 | 1026 | 308  | 30,02% | 0,06    |

Lo que no entiendo es: ¿Qué hizo el z-score de los 1.400 conjuntos de datos me dicen en la llanura inglés? ¿Qué es lo bueno en este caso?

2voto

Matthew Cole Puntos 697

Su original z-score se indica que, si el tratamiento no tuvo efecto, no sería de menos de un 5% de probabilidad de obtener los resultados que obtuvo.

Sin embargo, que la prueba depende de tener una muestra aleatoria de la población de interés. Usted no tiene una muestra aleatoria porque usted deliberadamente seleccionados que tendría un importante z-score.

Incluso si usted tuvo una muestra aleatoria, que sería, por definición, esperar en aproximadamente el 5% de los casos para obtener los resultados indican un efecto positivo cuando no hay tal efecto en la población.

Como el post del blog de referirse explica, aumentando el tamaño de la muestra aumenta la potencia de la prueba, que se define como uno menos la probabilidad de obtener no significativos resultados en la muestra, dado que no es un verdadero efecto del tratamiento en la población. El post elige una muestra que se traduce en una potencia de 95%. Esto es algo arbitrario, aunque. Si la prueba es barato, usted podría ir para el 99% o incluso el 99,9% y estar más seguro de no haber perdido un efecto real.

En este caso el original de las puntuaciones z son no sirve de mucho porque no son escogidos al azar. Sin embargo, una muestra aleatoria de una forma arbitraria decidió tamaño de la muestra, por ejemplo, 1000, podría todavía ser útil, pero (en comparación con un mayor tamaño de la muestra aleatoria) no sería un riesgo ligeramente mayor de no capturar un efecto real en la población.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X