14 votos

La determinación del tamaño de la muestra antes de iniciar un experimento o ejecutar el experimento de forma indefinida?

He estudiado las estadísticas de años y lo han olvidado todo lo que estos pueden parecer conceptual general de las preguntas de algo específico, pero aquí está mi problema.

Yo trabajo para un sitio web de comercio electrónico como un Diseñador UX. Tenemos Un a/B testing framework que fue construida hace muchos años que estoy empezando a dudar de ella.

La métrica que vamos a hacer de todas nuestras decisiones es conocida como la conversión, y se basa en el porcentaje de usuarios que visitan el sitio, terminan comprando algo.

Así que queremos probar cambiando el color del botón "Comprar" de Verde a Azul.

El control es lo que ya tenemos, el botón Verde donde sabemos lo que nuestro promedio de la tasa de conversión. El experimento está reemplazando el botón Verde con el botón Azul.

Estamos de acuerdo en el 95% de significación es el nivel de confianza de que somos felices y que a su vez el experimento, se deja correr.

Cuando los usuarios visitan el sitio, detrás de las escenas hay un 50/50 de probabilidades de que será enviado a la versión de control (botón verde) Vs el experimento versión (botón azul).

Después de mirar el experimento después de 7 días, veo un 10.2% de aumento en la conversión en favor de un experimento con un tamaño de muestra de 3000 (1500 va para el control, 1500 para el experimento) y una significación estadística de 99.2%. Excelente, creo.

El experimento continúa, el tamaño de la muestra crece y veo un +9% de aumento en la conversión con un significado de 98.1%. Ok, mantener el experimento en funcionamiento durante más tiempo y ahora el experimento muestra que sólo un 5% de elevación en la conversión con un nivel de significación estadística de sólo 92%, con el marco me dice que tengo 4600 más muestras antes de llegar al 95% de significación?

¿En qué punto está el experimento concluyente, entonces?

Si pienso en decir un proceso de ensayos clínicos donde usted está de acuerdo en el tamaño de la muestra en avanzar y completar el experimento se vea una mejora del 10% de lo métrica para el 99% de significación, entonces se toma la decisión de que esa droga, a continuación, va al mercado. Pero entonces, si se había hecho el experimento de 4000 personas y que se vea una mejora del 5% de lo métrica a sólo 92% importante entonces que las drogas no pueden ir al mercado.

Debemos estar de acuerdo en un tamaño de muestra de antelación y dejar de una vez de que el tamaño de la muestra es alcanzado y ser feliz con los resultados, si la significación es del 99% en el punto de inflexión en el experimento?

11voto

mdewey Puntos 579

Creo que el concepto que usted está buscando es el análisis secuencial. Hay una serie de preguntas en este sitio etiquetados con el término que puede resultarle útil, tal vez de Ajustar el valor de p para adaptativa análisis secuencial (para la prueba de la chi cuadrado)? sería un buen lugar para comenzar. También puede consultar el artículo de Wikipedia aquí. Otra utilidad de término de búsqueda es el alfa del gasto, que proviene del hecho de que cuando usted tomar cada uno repite mirada que usted debe considerarlo como el uso de algunas de sus alfa (nivel de significación). Si sigues mirando a sus datos sin tomar las comparaciones múltiples en la cuenta de ejecutar en el tipo de problema que se describen en su pregunta.

7voto

Coder Hawk Puntos 2344

¿En qué punto está el experimento concluyente, entonces?

Creo que aquí es donde el error en el pensamiento. No hay ningún punto en el que el experimento puede ser "concluyente" si usted que significa "deductivamente probar la causalidad". Cuando estás haciendo un experimento que consiste en una prueba estadística, usted necesita hacer un compromiso con respecto a las pruebas que usted considere a ser lo suficientemente bueno.

Estadísticamente, el sonido de los procedimientos experimentales dan los resultados conocidos con las tasas de falsos positivos y falsos negativos. Si usted ha elegido un procedimiento que utiliza 0,05 como el umbral de significación, usted está diciendo que usted está dispuesto a aceptar que en el 5% de los casos en los que realmente no hay diferencia, su prueba le dirá que hay una diferencia.

Si se desvía del procedimiento en las formas de describir (no la elección de un punto de llegada con antelación, simplemente ejecución de la prueba hasta su calculada p-valor cae por debajo de 0.05, o la ejecución de todo el experimento varias veces hasta que obtenga un resultado positivo, etc.), lo más probable es que su prueba le dirá que existe una diferencia cuando en realidad no hay diferencia. Lo más probable es que usted va a conseguir engañado en el pensamiento de su cambio ha sido eficaz. No se deje engañar.

Leer este artículo: Falso-la Psicología Positiva no divulgada de la Flexibilidad en la Recolección y Análisis de Datos Permite Presentar Algo tan Importante

Se destacan varias maneras que usted puede interferir indebidamente con un procedimiento de prueba que hacen más probable para que usted consiga engañar, incluyendo la misma situación que usted describe (no saber cuando parar un experimento).

Otras respuestas a dar algunas soluciones para mitigar estos problemas (análisis secuencial de la corrección de Bonferroni para comparaciones múltiples). Pero esas soluciones, mientras capaces de controlar la tasa de falsos positivos, suelen reducir el poder del experimento, lo que es menos probable para detectar diferencias cuando se hacen existir.


Hay otro error que estás haciendo. Se habla de un "10% de mejora de cualquier sistema de medición para el 99% de significación". Las pruebas de significación sólo puede decirle si la diferencia observada en la muestra es probable que sea debido a una real que subyace diferencia o simplemente el ruido aleatorio; no le dan los intervalos de confianza en torno a cuál es la verdadera magnitud de la diferencia.

3voto

ReneBt Puntos 306

Esto es exactamente por qué un claro criterio debe ser definido por delante de los ensayos. Como @mdewey indica que hay métodos establecidos para evaluar periódicamente un juicio, pero todos ellos requieren una clara detener criteron para evitar cualquier fudging sobre la decisión. Dos temas críticos que debe corregir para comparaciones múltiples y que cada uno de los análisis no es independiente, sino que su resultado está fuertemente influenciado por los resultados de su análisis anteriores.

Como alternativa puede ser la mejor práctica para definir el tamaño de la muestra basado en comercialmente argumentos relevantes.

Primero la empresa debe estar de acuerdo de lo que comercialmente un cambio relevante en el índice de conversión (es decir, lo que el tamaño de la diferencia es necesaria para la orden de hacer un comercial para el cambio que se ha desplegado de forma permanente). Sin estar de acuerdo que esto no es sensato el punto de referencia.

Una vez que el mínimo comercialmente relevantes, el tamaño del efecto es determinado (tenga en cuenta que esto puede cambiar en una base de caso por caso, dependiendo de la gravedad del paso que se está probando), a continuación, usted está de acuerdo con el nivel de riesgo que la empresa está dispuesta a aceptar por falta de un verdadero efecto (beta) y para la aceptación de un falso efecto (alfa).

Una vez que tenga estos números enchufe en el tamaño de la muestra de la calculadora y listo, tendrás tu ajustar el tamaño de la muestra para tomar una decisión.


EDITAR

El uso de tamaños de muestra pequeños y esperando que se muestran lo suficientemente grande efecto es una economía falsa (ya que su objetivo es procesable resultados confiables en lugar de generar polémica hipótesis para la publicación académica). Suponiendo imparcial de muestreo, en los bajos tamaños de muestra la probabilidad de seleccionar al azar las muestras que pasan a ser todos hacia extremos opuestos es mayor que en los de altos tamaños de muestra. Esto conduce a una mayor probabilidad de rechazar una hipótesis nula cuando en realidad no hay ninguna diferencia. Así que esto significaría empujando a través de los cambios que en realidad no son un efecto real o en el peor de tener un poco de impacto negativo. Esta es una manera diferente de explicar lo que @Ciencia está hablando cuando dicen

"ustedes son lo más probable es que su prueba le dirá que un la diferencia que existe cuando en realidad no hay diferencia"

El punto de pre-especificación de su análisis estadístico (si un tamaño de muestra fijo como puedo describir o un múltiplo de la estrategia de evaluación) es que encontrar un equilibrio adecuado entre las exigencias de tipo I y II errores. Su estrategia actual parece centrarse en los errores de tipo I y de ignorar por completo de tipo II.

Como muchos otros ms responden han declarado que los resultados nunca son concluyentes, pero si que se han considerado tanto de tipo I y II de los errores y su impacto en su negocio, entonces usted tendrá la confianza de más que te puede pasar si implementar cambios basados en los resultados. En el final de la toma de decisiones acerca de ser cómodo con su nivel de riesgo y nunca tratar a sus "hechos" como inmutable.

Estoy intrigado por otros aspectos de su estudio de diseño que pueden estar influyendo en los resultados. Pueden estar revelando algunas sutiles factores que no son lo que usted desea.

Son las personas seleccionadas para la muestra a todos los nuevos visitantes, todos los visitantes que regresan o es que indiferenciadas? Establecido que los clientes tienen una mayor tendencia a ir por algo de la novela (de manera sesgada hacia el cambio no es un color específico), pero para los nuevos clientes, todo es nuevo.

¿La gente real haciendo clic en recurrir dentro del plazo de estudio?

Si la gente visita varias veces en el intervalo de tiempo del estudio no se presentó con la misma versión o es de forma aleatoria, sobre la marcha?

Si el recurrente visitante se incluyen existe el peligro de exposición a la fatiga (no es una distracción, porque ya no es nuevo)

3voto

Joel Puntos 1081

Creo que usted está haciendo la pregunta equivocada aquí. La pregunta que usted está preguntando acerca de las pruebas estadísticas; creo que la pregunta correcta es "¿por qué es el efecto cambiando a través del tiempo?"

Si usted está midiendo una 0/1 variable para la conversión (¿comprar?) entonces la gente que no compre en una sesión inicial puede volver y comprar más tarde. Esto significa que la tasa de conversión aumentará con el tiempo y cualquier efecto de tener un cliente compra en su primera visita como contraposición a las visitas posteriores serán perdidos.

En otras palabras, llegar primero a la derecha lo que está midiendo, luego preocuparse por cómo va a medir.

0voto

La práctica común por lo general determina que usted decide sobre el tamaño de la muestra primero (para el control de la potencia estadística de la prueba de hipótesis), y luego realizar el experimento.

En respuesta a su posición actual, suena como que usted está después de la combinación de una serie de pruebas de hipótesis. Te recomiendo un vistazo a Fisher método. Además, usted está probablemente va a querer mirar Brown o Kost los métodos para acomodar Fisher método dependiente de la estadística de prueba. Como otro encuestado ha mencionado, un cliente de conversión (o no-conversión) va a impactar, si van a hacer una compra (o no) en la siguiente visita - sin importar de qué color es el botón.

Ocurrencias:

  1. Más información y fuentes de Fisher y sus métodos de extensiones puede encontrarse en el artículo de la Wikipedia para Fisher método.
  2. Creo que es importante mencionar que un experimento nunca es realmente concluyente. Un pequeño p-valor no indica que el resultado es concluyente, sólo que la hipótesis nula es raro basado en los datos que hemos adquirido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X