Actualmente estoy ejecutando un AB de la prueba en un montón de sitios web por un cambio que hemos hecho en todos los sitios web y soy la medición de los ingresos/sitio/grupo, para mi de los grupos de pruebas parece a lo siguiente:
Website a | Test group a | unique visitors | revenue
Website a | Test group b | unique visitors | revenue
Website b | Test group a | unique visitors | revenue
Website b | Test group b | unique visitors | revenue
etc.
Inicialmente quiero mostrar que hay una diferencia entre los dos grupos de prueba en general y así ha utilizado una hipótesis nula de: "El grupo de prueba no hace ninguna diferencia para los ingresos del/de la galleta en todos los sitios".
Puedo entonces felizmente suma de todos los visitantes únicos (a través de los sitios) y de los ingresos por cada grupo de prueba. Sin embargo, yo realmente no sé qué hacer desde aquí.
Sé que las conversiones pueden ser tratados de la binomial, pero los ingresos no se puede ser. También no se puede tratar el promedio del valor de la orden como una exponencial o de la distribución normal (ideas que he mirado). En un principio, pensé acerca del uso de una prueba de Mann-Whitney, pero la mayoría de cosas que he leído parece sugerir que estos funcionan mejor para < 20 entradas de la matriz.
Cuando creo un vector que contiene la cantidad de cada cliente gastado (muy escasamente poblada vector - la mayoría de la gente no compre nada), cada grupo de prueba tiene una longitud diferente vector de tamaño ~100,000.
Mi siguiente intento involucrados bootstrapping (creo) - yo, básicamente, crea una distribución normal para cada grupo de pruebas por muestreo de la citada escasamente pobladas ingresos vector. La creación de alrededor de 10.000 vectores como este y ejecución de una prueba de normalidad en la suma de cada uno de los vectores me da una distribución normal para cada grupo de prueba. A partir de esto, yo creo que puedo realizar una prueba t en los dos normalmente distribuida vectores para encontrar el significado del cambio y, por tanto, de apoyo/refutar la hipótesis nula?
Mi pregunta es, son cualquiera de los anteriores intentos de hacer lo correcto? No me puedo imaginar que este es infrecuente que una cosa que quiero hacer que no hay una forma aceptada en general de hacer esto. Además, también me gustaría ser capaz de informar de algo a lo largo de las líneas de:
Un grupo de prueba de x es y% mejor que el grupo de prueba z con el percentil 5 y 95 en la que el porcentaje de elevación de p y j.
¿Cuál sería la mejor manera de calcular estos bits de información?