Contexto
Considere el siguiente escenario para una empresa de venta de productos en línea. Un usuario puede comprar varios artículos (es decir, la canasta de artículos), algunos de los cuales son de particular importancia y se realiza el seguimiento de concreto (vamos a llamarlos estrella de los elementos).
Queremos probar un cambio en un algoritmo (por ejemplo, recomendación, evaluación de riesgos, agregar la orientación, lo que sea...) que pueden influir tanto en el número de estrellas de los artículos vendidos, y el total de ventas.
- Este estándar de prueba a/B de la instalación de la unidad de aleatorización es en el nivel de usuario.
- El propósito de la prueba a/B es comparar el impacto del algoritmo de cambio: el grupo de control tiene el algoritmo original y la variante con el nuevo algoritmo
- Una métrica clave de interés se define como la relación de la estrella de los elementos de las ventas sobre el total de ventas. Esta es una suma de todas las transacciones de todos los usuarios en el ámbito de cada a o B grupo.
- Esto significa que la unidad de análisis es a nivel de la transacción, que es diferente de la unidad de aleatorización
- Las métricas son calculados sobre la totalidad de la duración de la prueba (por ejemplo, 2 semanas)
Detalle de la métrica utilizada
Dado Un grupo y un conjunto de usuarios $U_A = \{u_1,u_2,...,u_{N_A} \}$, cada usuario está involucrado en un número de $t_{u_n}$ de las transacciones. El conjunto $T_A$ de todas las transacciones de todos los usuarios en el grupo a para la duración de la prueba es $T_A = \{ t_{u_{11}}, t_{u_{12}}, ... t_{u_{nm} } \}$.
La métrica de interés para el grupo a está definida sobre todas las transacciones en el ámbito del grupo A. Las sumas que están en el nivel de transacción, no a nivel de usuario.
$$\text{Metric}_A = \frac{\sum_{t_{i} \in T_A} \text{sales star items }$}{\sum_{t_{i} \en T_A} \text{ventas }$ }$$
Por supuesto, podríamos modificar la definición para calcular el nivel de usuario media y que sería simplificar las cosas, pero que no es la métrica que se utiliza.
Preguntas
¿Qué prueba estadística podría ser utilizado para una métrica ? Una consideración adicional es que, aunque podemos asumir con seguridad que los usuarios se yo.yo.d., lo más probable es erróneo suponer que la compra individual de las cestas se yo.yo.d. para el mismo usuario.
Aquí están algunas ideas que me encontré, tiene A/B testing profesionales de venir a través de métricas similares en el pasado ?
- la prueba z de proporciones
- Arranque y Jacknife
- Método Delta
- Cambiar la métrica (último recurso)
https://en.wikipedia.org/wiki/Ratio_estimator
Editar - Algunas aclaraciones
La razón detrás de esta pregunta es que he visto a menudo a los de la prueba z de una proporción utilizado en esta situación. Populares herramientas que se utilizan para las pruebas a/B con frecuencia predeterminada en la proporción de la prueba y negocios a los usuarios rara vez comprobación de los supuestos subyacentes necesarios para que la prueba sea válida. @dnqxt la respuesta de abajo es un buen ejemplo: "Sólo el uso de la prueba z de una proporción !" - pero me gustaría ver un estadístico riguroso justificación de por qué (o por qué no) esta prueba puede ser usada en este caso.
Yo personalmente no creo que el uso de una prueba z de proporciones que trabajo aquí como las ventas de una compra evento no son ensayos de Bernoulli. Yo sostengo que no podemos decir que cada dólar vendido en el denominador puede ser visto como un ensayo de Bernoulli, resultando en 0 o 1 estrella elemento de dólares vendidos en el numerador. Por otra parte, desde la aleatorización de la unidad está en el nivel de usuario, la compra eventos de un mismo usuario no son independientes (pero yo diría que es una cuestión secundaria). Yo podría estar equivocado, así que por favor siéntase libre de probar esto de otra manera !
También podemos cambiar la métrica para hacer de él un Bernoulli/Binomio que converge a la Normalidad mediante la cuenta, pero eso sería una solución de último recurso
$$ \frac{\# \text{sales with star items} }{\# \text{sales}} $$