No soy estadístico, pero he creado una serie de herramientas para evaluar la importancia estadística de las pruebas A/B/n para incluirlas en las herramientas de marketing. Me encantaría que alguien con más experiencia comentara mi respuesta.
Pearson's χ2χ2 Prueba
Una popular elección y el que produce los resultados verificables más consistentes es Prueba Chi-cuadrado de Pearson . Las matemáticas son sencillas y bastante fáciles de seguir.
χ2=∑i(Oi−Ei)2Eiχ2=∑i(Oi−Ei)2Ei
Donde OiOi es el valor observado de clics o no clics. EiEi es el valor observado de los clics multiplicado por el porcentaje de clics, similar al de los no clics. En su ejemplo, Test 1
datos es:
O1c=12,O1nc=38O1c=12,O1nc=38 E1c=19.1,E1nc=30.9E1c=19.1,E1nc=30.9
Para las pruebas A/B/n en línea, calculará estos valores para los clics y la ausencia de acciones en cada grupo, por lo que en su ejemplo realizará estos pasos un total de 8 veces. Aplíquelos a la ecuación anterior y debería encontrar que en su ejemplo χ2=15.6χ2=15.6 .
Una vez que haya calculado χ2χ2 usted utiliza interpolación lineal de un χ2χ2 tabla para encontrar el valor de pp .
p=y0+(y1−y0)χ2−x0x1−x0p=y0+(y1−y0)χ2−x0x1−x0
Los grados de libertad siempre serán 1 menos que el número de observaciones. Usted tuvo 8 observaciones (cuatro conjuntos de clics y cuatro conjuntos de no clics), por lo que en este caso hay 7 grados de libertad. Finalmente, para el intervalo de confianza, CI=1−pCI=1−p . Llevando a cabo su ejemplo, p=0.03p=0.03 Así que Test 3
es el ganador con una confianza del 97%.
Prueba G
Otro citado elección es la Prueba G . Esto está estrechamente relacionado y debería producir resultados comparables a los del χ2χ2 prueba.
G=2∑iOi⋅ln(OiEi)
donde Oi & Ei se calculan de la misma manera que los anteriores. Repite esto para los 8 atributos y deberías terminar con G=15.7 . Utilice el mismo χ2 como en la tabla anterior y encontrará que p=0.029 y la confianza vuelve a ser del 97%.
Z-Score
Hay algunos artículos en línea que recomiendan el uso del Puntuación Z (también conocido como puntuación estándar). No estoy de acuerdo con este enfoque, pero lo incluyo en aras de la exhaustividad.
z=p−pc√p(1−p)N+pc(1−pc)Nc
Donde p es la tasa de conversión (en línea se denomina CTR) de uno de sus elementos, N es el número de impresiones de ese elemento, pc y Nc son el CTR y las impresiones del grupo de control. Para calcular la puntuación Z de su grupo ganador, utilizaremos:
pc=0.24,Nc=50 p=0.566,N=53
Introduciendo esto en la ecuación anterior, obtendrás Z=3.58 . Mientras Z>1.96 tiene un resultado que alcanza el 95% de confianza. Si utilizara este criterio, calcularía la puntuación Z de cada una de sus variantes y tomaría la más alta.
La razón por la que no estoy de acuerdo con este enfoque es que hay situaciones para las que no puedo verificar los resultados mediante otro método. Si utilizo los datos que aparecen a continuación:
Impressions Clicks
Control 50 12
Variation 1 55 23
Obtengo una puntuación Z de 1,98, que según los criterios de esa prueba muestra significación. Sin embargo, si pruebo estos mismos valores en un χ2 calculadora me parece que la confianza está muy por debajo del 90%. Supongo que esto se debe a que el número total de impresiones es bajo, lo que intuitivamente tiene sentido para mí.
No soy estadístico, así que no puedo hacer más que adivinar la razón, pero esto me lleva a confiar en que Pearson χ2 probar más. Mi elección del χ2 sobre la prueba G es arbitraria. Yo la elegí primero y me he quedado con ella, aunque puedo decir que también he probado la prueba G unas cuantas veces y los resultados son siempre comparables.
Espero que esto ayude. También espero que alguien con mayor conocimiento pueda comentar mis métodos y elecciones.