El Verdadero Problema Del Mundo
Uno de mis clientes se está preparando para enviar un correo directo a su suscrito lista de usuarios, y esta estadística reto.
Su equipo de marketing tiene 3 diferentes folletos, y quiere saber que el folleto se presenta la más alta tasa de respuesta. Les gustaría también saber si el envío de la correspondencia con una mano-escrito de la dirección, en una gruesa envoltura, mejora los resultados en comparación con una normal de la envolvente.
Supongamos el siguiente:
- Para cada folleto $b_i$ ($i = 1,2,3$), una persona que recibe ese folleto que realmente lo abre y lo lee va a responder con una probabilidad de $r_i$ donde $r_i$ es la verdadera tasa de respuesta para que el folleto
- El grueso, sobres de alta calidad tienen una verdadera tasa de apertura de $o_{thick}$, mientras que el normal de los sobres tienen una tasa de apertura de $o_{normal}$
- De los anteriores correos, esperamos real observaron tasas de respuesta será aproximadamente entre el 1% y el 5%.
Nuestros Objetivos
Queremos encontrar el mejor folleto y enviar el menor número de anuncios publicitarios. También queremos estimar las dos tasas de apertura.
Tras la recolección empírica de los índices de respuesta real de los correos enviados, si la verdadera diferencia entre las tasas de respuesta $r_i$ es mayor que la mitad de un por ciento, deberíamos ser capaces de detectar esa diferencia como statisitcally significativa con $p < .05$
Mis pensamientos hasta el momento
Podemos asignar aleatoriamente a los usuarios a cada uno de los 3 folletos, de tal manera que $N$ de los usuarios reciban cada folleto. Queremos saber lo $N$ que necesitamos para lograr nuestros deseada de la sensibilidad en la detección de diferencias en las tasas de respuesta. Suponiendo el peor de los casos, tenemos que ser capaces de detectar una diferencia entre la verdadera tasas de 1% y el 1,5%. La SD esta diferencia es $\sqrt{\frac{(.01*.99) + (.015*.985)}{N}}$. Configuración doble de esa cantidad (2 desviaciones estándar nos da la confianza de 95%) igual a .005 (la mitad de un por ciento) conduce a la solución de $N = 3948$.
Preguntas
- Es este el diseño óptimo o podemos hacer mejor?
- Es mi cálculo de $N$ correcto?
Finalmente, ¿cuál es la mejor manera de estimar el $o_{normal}$$o_{thick}$, o simplemente la diferencia entre los dos?
Mi idea era la de asignar aleatoriamente a la mitad de cada folleto de grupo para cada tipo de envolvente. Dentro de cada folleto grupo, la observación de las tasas de respuesta sería el producto de las tasas de apertura y el $r_i$. Esto complicaría mi cálculo de $N$ por encima, ya que realmente debería haber usado este producto en mi cálculo.
Mi respuesta sería entonces depende de una estimación de la media de la tasa de apertura -- $\frac{o_{normal} + o_{thick}}{2}$ - que tengo que adivinar. También, no estoy seguro de cómo determinar la distribución de la diferencia entre el$o_{normal}$$o_{thick}$, ya que ahora tenemos tres diferentes estimaciones de la diferencia, cada uno de los cuales depende de diferentes $r_i$, cada uno de los cuales sólo hemos estimaciones empíricas de estimaciones empíricas que dependen de nuestra supongo que en el promedio de la tasa de apertura.
Muchas gracias por cualquier ayuda con esto.