11 votos

Validar web de pruebas a/b por volver a ejecutar un experimento - es esto válido?

Un seminario web el otro día por un a/b testing compañía tenía sus residentes "Científico de Datos", explíquele que debe validar los resultados por volver a ejecutar el experimento. La premisa era que, si selecciona un 95% de confianza, es de 5% (1/20) de probabilidad de un falso positivo. Si vuelve a ejecutar el experimento con las mismas limitaciones, ahora hay un 1/400 (estoy asumiendo que determina este 0,05^2 = 1/400)

Es esta una afirmación válida? (es decir, "ejecutar dos veces, dos significación estadística gana = 1/400 probabilidad de falso positivo")? Hubiera sido un mejor enfoque para aumentar su nivel de significación?

Desde un punto de vista empresarial, la preocupación que tengo es volver a ejecutar el experimento, se están exponiendo a más usuarios a un inferior de la página (tratamiento), y por lo tanto perder el potencial de ventas.

3voto

Ignorando la probabilidad de un falso positivo por el momento, me gustaría ver algo como esto:

  1. Si ejecuta el experimento dos veces por obtener el mismo resultado, usted no tiene idea de si hay dos verdaderos positivos resultados o dos resultados positivos falsos en una fila.
  2. Si ejecuta el experimento dos veces y obtener dos resultados diferentes, entonces usted no sabe lo que es el verdadero positivo y cual fue el resultado positivo falso.

En cualquier caso, se debe de correr un tercer experimento, sólo para estar seguro. Esto quizás está bien para los experimentos que son relativamente baratos, pero donde el costo es potencialmente alta (como la pérdida de clientes) que usted realmente necesita considerar el beneficio.

Mirando las probabilidades, la primera vez que se ejecuta el experimento, no es un 1/20 de probabilidad de un falso positivo. La segunda vez que se ejecuta el experimento no es todavía un 1/20 de probabilidad de un falso positivo (piense en ello como el balanceo de una matriz donde cada rollo tiene un 1/6 probabilidad de obtener un número determinado). Sólo hay un 1/400 posibilidad de tener dos falsos positivos en una fila.

El verdadero problema es tener bien definida la hipótesis con los estrictos requisitos de los procedimientos, y tiene un tamaño de la muestra, el nivel de error, y el intervalo de confianza se puede vivir con o pagar. La repetición del experimento debe ser de izquierda a explorar

  1. clientes a lo largo del tiempo
  2. los cambios realizados por la organización
  3. los cambios realizados por la competencia

en lugar de adivinar los resultados. A pesar de explicarle esto a los administradores es más fácil de decir que de hacer.

2voto

bsamek Puntos 209

Sí que la declaración es correcta, suponiendo que el experimento es ideal. Pero conseguir un experimento ideal es la manera más difícil que este sentimiento le da credibilidad. "Mundo Real" de datos es complicado, complicado y difícil de interpretar en el primer lugar. Hay mucho espacio para defectuoso de análisis, variables ocultas (hay muy rara vez "las mismas restricciones"), o problemas de comunicación entre un científico de datos haciendo su trabajo y un marcado exec suya.

Desde un punto de vista empresarial asegurar una buena metodología y no confiar demasiado en los resultados; un reto más complicado de lo que piensas. Una vez que usted consiga abajo, a continuación, trabajar en ese 5%.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X