Estoy realizando una web basada en una prueba a/b, donde hay un control y un tratamiento. Los resultados no son tan simples como "convertir" o "no convertir." Un usuario puede "convertir" en cualquier lugar de 0 a 10 veces. Yo tengo todos los datos desde el control y el tratamiento (número de veces que cada usuario se convierte desde el control y el tratamiento). El tamaño de la muestra no tienen el mismo tamaño (alrededor de 1900 vs 2100) y las varianzas son diferentes (7.12 vs 6.02). La media del tratamiento es de alrededor de 11% mayor que el control.
El objetivo del experimento es averiguar si el tratamiento puede aumentar convierte por usuario. Los números muestran un incremento del 11% en las conversiones, por usuario. Para averiguar si el resultado es estadísticamente significativo he estado tratando de utilizar una prueba de la t de Welch. Cuando utilizo la ecuación de Welch prueba de la t de encontrar en esta página de la wikipedia puedo obtener los siguientes resultados:
t-score: 2.26
degrees of freedom: 4025.82
En la página de la wikipedia dice que puedo utilizar un t-distribution
a prueba de la hipótesis nula (mi hipótesis nula es que los medios de control y el tratamiento son los mismos). Pero no estoy seguro de cómo ir sobre el uso de un t-distribution
. Supongo que tiene algo que ver con el uso de un t tabla de distribución.
Preguntas:
- Es el uso de un Welch prueba de la t de un buen enfoque para esta situación?
- Si no lo otro método sugeriría usted?
- Con mis resultados de la prueba de la t de Welch, ¿cómo puedo usar un
t-distribution
para determinar si tengo un resultado significativo, y con cuánta confianza?