Processing math: 100%

1 votos

Comparar dos distribuciones normales que no están relacionadas

Tengo dos distribuciones normales, sobre los ingresos de 2 tiendas (suponiendo que no están relacionadas).

Para cada una de las 2 tiendas tengo la media y la desviación estándar sobre una muestra de ingresos de 40 días.

Ahora, me gustaría calcular la probabilidad de que la tienda A funcione mejor que la tienda B en un nuevo día.

Estaba pensando en usar

(AB)N(μAμB,σ2A+σ2A),

Y luego hacer algo así como que la probabilidad de que B rinda más que A es como P(B>A)=P(AB<0) y utilizamos la distribución normal, para evaluar AB<0 .

Pero quiero evaluar si mi razonamiento es correcto.

Gracias.

1voto

heropup Puntos 29437

El principal problema de su enfoque es que la comparación de los ingresos de las dos tiendas debe hacerse para el mismo día, es decir, hay un componente temporal que debe tenerse en cuenta tanto en el análisis como en el muestreo.

Para ilustrarlo, supongamos que los datos de la tienda A se recogieron durante la temporada de vacaciones, cuando el volumen de ventas suele ser alto, pero los datos de la tienda B se recogieron durante una época en la que había inclemencias del tiempo. Entonces, comparar la media de ingresos no es realmente justo, porque las circunstancias que tienen una relación causal con los ingresos son diferentes. Por lo tanto, la forma más fácil de controlar esta fuente de variabilidad es tomar muestras de los ingresos de las tiendas en los mismos días durante el mismo periodo de tiempo. A esto lo llamamos muestreo "emparejado".

Este es un enfoque muy natural e intuitivo y puede parecer obvio, pero lo que también significa es que el análisis de estos datos emparejados también debe tener en cuenta esta estructura, y la forma de hacerlo depende de la pregunta que se espera responder a través de esos datos. Por ejemplo, si está interesado en comprobar si los ingresos medios diarios de las dos tiendas son diferentes, entonces realizaría un emparejado t -prueba. Pero si lo que le interesa es probar si una tienda tiene más probabilidades de tener un ingreso diario mayor que la otra, entonces no le importa la magnitud de la diferencia, sólo si la tienda A "gana" con más frecuencia que la tienda B, o viceversa -donde una "victoria" significa que ganaron más dinero, aunque sea por poco. En este caso, se realizaría una prueba sobre la proporción de victorias en la muestra.

Luego está la cuestión de predicción y estimación frente a pruebas . Si está interesado en estimar los verdaderos ingresos medios de cada tienda, un enfoque sencillo es construir intervalos de confianza para esos ingresos; en este caso, no es necesario el emparejamiento. Más sofisticado sería un enfoque bayesiano para modelar la distribución predictiva posterior de los ingresos del día siguiente basándose en los datos históricos. De nuevo, no se utiliza el emparejamiento. Pero si nos interesa predecir o estimar el diferencia en los ingresos, ya sea a través de una estimación del intervalo de confianza o de un modelo bayesiano, entonces debe realizar ese análisis en las diferencias emparejadas de los datos.

Si tomamos su pregunta literalmente:

Calcule la probabilidad de que la tienda A obtenga mejores resultados que la tienda B en un nuevo día

entonces me parece que el enfoque que hay que adoptar, suponiendo que los datos estén emparejados, es la prueba de proporciones que he mencionado. En concreto, supongamos que nuestra estructura de datos es

A=(x1,x2,,xn)B=(y1,y2,,yn) donde xi y yi son los ingresos declarados por la tienda A y la tienda B el día de la muestra i respectivamente. A continuación, construimos la estadística S=ni=11(xi>yi) que cuenta el número de días en los que la tienda A obtiene más ingresos que la tienda B. A continuación, dejemos que N=ni=11(xiyi), es decir, N cuenta el número de días en que los ingresos son no atado si no observas ninguna atadura, entonces N=n . Entonces SNBinomial(N,p) donde p es la probabilidad de que la tienda A "gane" a la tienda B. (La estadística incondicional S no es binomial porque N es aleatorio, pero en la práctica, si los empates son muy poco probables, podemos ignorar la condicionalidad). Una prueba de hipótesis de la forma H0:p=p0=0.5vs.H1:p0.5 con el estadístico de prueba Z=S/Np0p0(1p0)/NNormal(0,1) es asintóticamente normal para un tamaño suficientemente grande N .

Pero si tu objetivo es estimar la probabilidad p entonces se puede construir el intervalo de confianza ˆp±zα/2ˆp(1ˆp)/N, donde ˆp=S/N es la tasa de ganancia observada para la tienda A, y zα/2 es el valor crítico de a 100(1α)% y es igual a la parte superior del intervalo de confianza α/2 cuantil de la distribución normal estándar.

Alternativamente, el modelo bayesiano emplearía una probabilidad binomial con beta a priori, cuya posterior para la probabilidad de que la tienda A gane al día siguiente está distribuida en beta. Pero esta respuesta es ya demasiado larga para un tratamiento detallado.

0voto

Stacker Puntos 6

En realidad no, parece que estás mezclando dos conceptos diferentes. Estarías evaluando que la media de B sea mayor que la media de A, es decir, que en general B reciba mayores ingresos, no la probabilidad de que B tenga mejores resultados que A en un día determinado. Además, no estarías encontrando la probabilidad de que B tenga una media mayor que A; es más bien probar si B tiene una media mayor que A en absoluto.

0voto

BruceET Puntos 7117

Varios comentarios:

Estoy de acuerdo con @heropup (+1) en que se necesitan datos para las diferencias D de las ventas de la tienda B menos las ventas de la tienda A en los mismos días. Pero entonces no tiene datos independientes a menos que los 40 días estén muy separados. (Un enfoque de series temporales podría buscar efectos semanales, mensuales o efectos estacionales.

Si usted tiene diferencias normales independientes d entonces podría utilizar ˉd y Sd para estimar μd,σd. No está muy claro a qué te refieres con la probabilidad de que B>A o D>0. ¿Está pidiendo predicciones diarias o está dispuesto a a lidiar con las tendencias históricas y sólo esperar que "predigan" el futuro. Puede que quiera buscar distinciones entre los intervalos de confianza (para la diferencia en un día típico pasado al azar) o los intervalos de predicción para una nueva diferencia (con su propia variabilidad hipotética, a la vista de lo que se conoce del pasado).

Si sólo quieres P(D>0), para un día elegido al azar, entonces es fácil de calcular para un D con ˆμd=0.2,σd=2.12, de una muestra normal aleatoria. (En R.)

1 - pnorm(0, 0.2, 2.12)
[1] 0.5375803

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X