El principal problema de su enfoque es que la comparación de los ingresos de las dos tiendas debe hacerse para el mismo día, es decir, hay un componente temporal que debe tenerse en cuenta tanto en el análisis como en el muestreo.
Para ilustrarlo, supongamos que los datos de la tienda A se recogieron durante la temporada de vacaciones, cuando el volumen de ventas suele ser alto, pero los datos de la tienda B se recogieron durante una época en la que había inclemencias del tiempo. Entonces, comparar la media de ingresos no es realmente justo, porque las circunstancias que tienen una relación causal con los ingresos son diferentes. Por lo tanto, la forma más fácil de controlar esta fuente de variabilidad es tomar muestras de los ingresos de las tiendas en los mismos días durante el mismo periodo de tiempo. A esto lo llamamos muestreo "emparejado".
Este es un enfoque muy natural e intuitivo y puede parecer obvio, pero lo que también significa es que el análisis de estos datos emparejados también debe tener en cuenta esta estructura, y la forma de hacerlo depende de la pregunta que se espera responder a través de esos datos. Por ejemplo, si está interesado en comprobar si los ingresos medios diarios de las dos tiendas son diferentes, entonces realizaría un emparejado t -prueba. Pero si lo que le interesa es probar si una tienda tiene más probabilidades de tener un ingreso diario mayor que la otra, entonces no le importa la magnitud de la diferencia, sólo si la tienda A "gana" con más frecuencia que la tienda B, o viceversa -donde una "victoria" significa que ganaron más dinero, aunque sea por poco. En este caso, se realizaría una prueba sobre la proporción de victorias en la muestra.
Luego está la cuestión de predicción y estimación frente a pruebas . Si está interesado en estimar los verdaderos ingresos medios de cada tienda, un enfoque sencillo es construir intervalos de confianza para esos ingresos; en este caso, no es necesario el emparejamiento. Más sofisticado sería un enfoque bayesiano para modelar la distribución predictiva posterior de los ingresos del día siguiente basándose en los datos históricos. De nuevo, no se utiliza el emparejamiento. Pero si nos interesa predecir o estimar el diferencia en los ingresos, ya sea a través de una estimación del intervalo de confianza o de un modelo bayesiano, entonces debe realizar ese análisis en las diferencias emparejadas de los datos.
Si tomamos su pregunta literalmente:
Calcule la probabilidad de que la tienda A obtenga mejores resultados que la tienda B en un nuevo día
entonces me parece que el enfoque que hay que adoptar, suponiendo que los datos estén emparejados, es la prueba de proporciones que he mencionado. En concreto, supongamos que nuestra estructura de datos es
A=(x1,x2,…,xn)B=(y1,y2,…,yn) donde xi y yi son los ingresos declarados por la tienda A y la tienda B el día de la muestra i respectivamente. A continuación, construimos la estadística S=n∑i=11(xi>yi) que cuenta el número de días en los que la tienda A obtiene más ingresos que la tienda B. A continuación, dejemos que N=n∑i=11(xi≠yi), es decir, N cuenta el número de días en que los ingresos son no atado si no observas ninguna atadura, entonces N=n . Entonces S∣N∼Binomial(N,p) donde p es la probabilidad de que la tienda A "gane" a la tienda B. (La estadística incondicional S no es binomial porque N es aleatorio, pero en la práctica, si los empates son muy poco probables, podemos ignorar la condicionalidad). Una prueba de hipótesis de la forma H0:p=p0=0.5vs.H1:p≠0.5 con el estadístico de prueba Z=S/N−p0√p0(1−p0)/N∼Normal(0,1) es asintóticamente normal para un tamaño suficientemente grande N .
Pero si tu objetivo es estimar la probabilidad p entonces se puede construir el intervalo de confianza ˆp±z∗α/2√ˆp(1−ˆp)/N, donde ˆp=S/N es la tasa de ganancia observada para la tienda A, y z∗α/2 es el valor crítico de a 100(1−α)% y es igual a la parte superior del intervalo de confianza α/2 cuantil de la distribución normal estándar.
Alternativamente, el modelo bayesiano emplearía una probabilidad binomial con beta a priori, cuya posterior para la probabilidad de que la tienda A gane al día siguiente está distribuida en beta. Pero esta respuesta es ya demasiado larga para un tratamiento detallado.