Estoy tratando de entender el razonamiento al elegir un enfoque de prueba específico cuando se trata de una simple prueba A/B - (es decir, dos variaciones/grupos con una respuesta binaria (convertido o no). Como ejemplo, utilizaré los siguientes datos
Version Visits Conversions
A 2069 188
B 1826 220
La mejor respuesta aquí es genial y habla de algunos de los supuestos subyacentes de las pruebas z, t y chi cuadrado. Pero lo que encuentro confuso es que diferentes recursos en línea citan diferentes enfoques, y uno pensaría que los supuestos para una prueba A/B básica deberían ser más o menos los mismos?
- Por ejemplo, este artículo utiliza Puntuación z :
- Este artículo utiliza la siguiente fórmula (que no estoy seguro si es diferente del cálculo de zscore?):
- Este documento hace referencia a la prueba t(p 152):
Entonces, ¿qué argumentos se pueden esgrimir a favor de estos diferentes enfoques? ¿Por qué hay que tener una preferencia?
Para añadir un candidato más, la tabla anterior puede reescribirse como una tabla de contingencia 2x2, donde Prueba exacta de Fisher (p5) se puede utilizar
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Pero según este hilo la prueba exacta de fisher sólo debe utilizarse con tamaños de muestra pequeños (¿cuál es el límite?)
Y luego están las pruebas t y z emparejadas, la prueba f (y la regresión logística, pero quiero dejarla fuera por ahora).... Siento que me estoy ahogando en diferentes enfoques de prueba, y sólo quiero ser capaz de hacer algún tipo de argumento para los diferentes métodos en este simple caso de prueba A/B.
Utilizando los datos del ejemplo, obtengo los siguientes valores p
-
https://vwo.com/ab-split-test-significance-calculator/ da un valor p de 0,001 (puntuación z)
-
http://www.evanmiller.org/ab-testing/chi-squared.html (usando chi cuadrado) da un valor p de 0,00259
-
Y en R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
da un valor p de 0,002785305
Que supongo que están todos bastante cerca...
En cualquier caso, sólo espero que se produzca un debate saludable sobre qué enfoques utilizar en las pruebas en línea, en las que el tamaño de las muestras suele ser de miles de personas y los porcentajes de respuesta suelen ser del 10% o menos. Mi instinto me dice que use el chi-cuadrado, pero quiero ser capaz de responder exactamente por qué lo estoy eligiendo sobre la otra multitud de maneras de hacerlo.
0 votos
En cuanto a $z$ - y $t$ -prueba que tu pregunta ya está respondida aquí: stats.stackexchange.com/questions/85804/
1 votos
Esta demostración me ha resultado muy útil. Que muestra que la prueba z para proporciones es esencialmente equivalente a la prueba chi-cuadrado de homogeneidad en la tabla de contingencia 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html