He estudiado las estadísticas de años y lo han olvidado todo lo que estos pueden parecer conceptual general de las preguntas de algo específico, pero aquí está mi problema.
Yo trabajo para un sitio web de comercio electrónico como un Diseñador UX. Tenemos Un a/B testing framework que fue construida hace muchos años que estoy empezando a dudar de ella.
La métrica que vamos a hacer de todas nuestras decisiones es conocida como la conversión, y se basa en el porcentaje de usuarios que visitan el sitio, terminan comprando algo.
Así que queremos probar cambiando el color del botón "Comprar" de Verde a Azul.
El control es lo que ya tenemos, el botón Verde donde sabemos lo que nuestro promedio de la tasa de conversión. El experimento está reemplazando el botón Verde con el botón Azul.
Estamos de acuerdo en el 95% de significación es el nivel de confianza de que somos felices y que a su vez el experimento, se deja correr.
Cuando los usuarios visitan el sitio, detrás de las escenas hay un 50/50 de probabilidades de que será enviado a la versión de control (botón verde) Vs el experimento versión (botón azul).
Después de mirar el experimento después de 7 días, veo un 10.2% de aumento en la conversión en favor de un experimento con un tamaño de muestra de 3000 (1500 va para el control, 1500 para el experimento) y una significación estadística de 99.2%. Excelente, creo.
El experimento continúa, el tamaño de la muestra crece y veo un +9% de aumento en la conversión con un significado de 98.1%. Ok, mantener el experimento en funcionamiento durante más tiempo y ahora el experimento muestra que sólo un 5% de elevación en la conversión con un nivel de significación estadística de sólo 92%, con el marco me dice que tengo 4600 más muestras antes de llegar al 95% de significación?
¿En qué punto está el experimento concluyente, entonces?
Si pienso en decir un proceso de ensayos clínicos donde usted está de acuerdo en el tamaño de la muestra en avanzar y completar el experimento se vea una mejora del 10% de lo métrica para el 99% de significación, entonces se toma la decisión de que esa droga, a continuación, va al mercado. Pero entonces, si se había hecho el experimento de 4000 personas y que se vea una mejora del 5% de lo métrica a sólo 92% importante entonces que las drogas no pueden ir al mercado.
Debemos estar de acuerdo en un tamaño de muestra de antelación y dejar de una vez de que el tamaño de la muestra es alcanzado y ser feliz con los resultados, si la significación es del 99% en el punto de inflexión en el experimento?