4 votos

¿Merece la pena volver a hacer la división aleatoria varias veces para sacar el "mejor" grupo de control?

Mi cliente realiza campañas de marketing dirigidas a los abonados. A efectos de evaluación, divide el público objetivo en grupos de destino y de control (TG, CG). Dice que hace esta división de forma aleatoria, pero en realidad lo hace de forma especial.

Realiza docenas de iteraciones de divisiones aleatorias verdaderas, y en cada iteración compara los promedios de datos de precampaña en los candidatos de CG y TG en una división (como, los ingresos del mes pasado, la vida útil, etc.). Finalmente, elige una división en la que las diferencias de precampaña entre los candidatos CG-TG son mínimas. Lo motiva con la necesidad de comparar en el futuro a CG y TG en el periodo de post-campaña, y de esta manera asegura la máxima similitud de los grupos antes del inicio de la campaña.

Argumento que la división aleatoria es aleatoria por diseño, y no tiene sentido volver a dividir varias veces para encontrar la "mejor", ya que cualquier diferencia (o ausencia de la diferencia en TG y CG resultante antes de la campaña) es aleatoria. Sostiene que, al final, cuando establecemos los grupos, sus datos previos a la campaña ya no son aleatorios y, por lo tanto, es mejor que los establezcamos de forma que las diferencias previas a la campaña sean mínimas.

Dado que los grupos son grandes (normalmente, muchos miles de suscriptores), este enfoque de reajuste apenas influye en la comparabilidad de los grupos antes de la campaña (en realidad, sólo supone una carga de trabajo adicional para la base de datos). Y supongo que el esquema de evaluación sigue siendo estadísticamente sólido.

Pero si TG y CG fueran más pequeños (y otra reasignación aleatoria de los grupos puede hacer que los datos de precampaña estén efectivamente más o menos equilibrados por KPI de interés), ¿el punto de vista de quién sería correcto? Quiero decir, correcto desde el punto de vista puramente estadístico y desde el punto de vista práctico (evaluación de la campaña para los interesados), si de alguna manera difieren.

5voto

icelava Puntos 548

Yo diría que su cliente tiene razón.

Para justificar mi postura, vamos a discutir por qué hacemos la asignación aleatoria a los grupos en primer lugar. En un mundo ideal, cada individuo del GT correspondería exactamente a un individuo del GC, que son idénticos en todos los atributos relevantes, tanto los que conocemos como los que desconocemos. Si tenemos un diseño de emparejamiento de este tipo, podemos conozca que las diferencias en el resultado se deban a la intervención.

Desgraciadamente, hay dos problemas con una coincidencia tan perfecta. El primero es que ni siquiera la coincidencia con los atributos conocidos suele ser posible, simplemente porque hay demasiadas combinaciones posibles de valores de atributos. El segundo es que normalmente no conocemos todos los atributos relevantes, o no podemos medirlos. Por eso hacemos una asignación de grupos aleatoria, con la esperanza de que los grupos no difieran mucho en los atributos conocidos y que los atributos desconocidos se promedien de forma similar.

Si podemos suponer que el proceso de su cliente no induce sistemática diferencias en los atributos desconocidos (y esta suposición suele tener sentido en la OMI), entonces nos queda el hecho de que hace que los grupos sean más similares en el conocido atributos. Lo cual es un paso hacia un mejor emparejamiento, es decir, el mundo ideal.

Así que no hay inconvenientes, pero sí hay ventajas. Así que su cliente tiene razón en su proceso.

2voto

joze Puntos 1

Parece que su cliente quiere una división aleatoria mientras controla la varianza a lo largo de métricas específicas. El procedimiento de su cliente no es equivocada pero es caro desde el punto de vista informático y difícil de reproducir (por ejemplo, hay que almacenar la semilla de la mejor asignación aleatoria).

Una alternativa sería realizar una muestra aleatoria estratificada. Las métricas de interés parecen ser continuas, por lo que esto podría lograrse dividiendo los candidatos y asignando aleatoriamente dentro de cada caja. Por ejemplo, si se requiere una división 10/90 TG/CG mientras se controla la varianza en términos de ingresos del mes anterior y vida útil, se podría

  1. Partición de los candidatos en 25 casillas, cada una de las cuales contiene candidatos en el $i^{\mathit{th}}$ quintil de ingresos del mes pasado y el $j^{\mathit{th}}$ quintil de vida.
  2. Dentro de cada cubeta, se hace un hash del identificador candidato concatenado con el identificador del experimento para obtener un número entero pseudoaleatorio estable.
  3. Seleccione el 10% de los candidatos con los valores hash más pequeños para TG.

Este procedimiento garantiza que el 10% de cada recipiente sea TG. Es probable que quiera ajustar los límites de los recipientes y el número de recipientes para no acabar con algunos recipientes con muy pocos candidatos (por ejemplo, los quintiles pueden no ser el criterio adecuado para la clasificación).

0 votos

Bien. La estratificación existe allí también, sin embargo omití esto de la pregunta, como mi iterest primario era si tal persiguiendo a grupos homogéneos con el remuestreo múltiple no violando algunas espinas dorsales estadísticas. Y la respuesta de Stephan sugiere que parece que estamos bien aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X