5 votos

¿Es un problema que los tamaños de los grupos aleatorios puedan diferir?

Mi página web tiene publicidad de varias empresas - digamos 10.000 empresas. Cada empresa tiene su propia página, pero todas las páginas son actualmente similares, excepto por la empresa que aparece en la página. Una variable de éxito/respuesta/dependiente es que un visitante haga clic en el anuncio. La página de cada empresa tiene una tasa de éxito diferente: el 50% de los visitantes hacen clic en las páginas de algunas empresas y el 1% en las de otras.

Estoy probando un nuevo diseño de página que será para cada empresa. Tenemos 4 nuevas páginas potenciales diferentes, para un total de 5 páginas que se están probando incluyendo el control. Un algoritmo de aleatorización asignará a cada visitante en uno de los 5 cubos, sin embargo esto no garantiza que cada cubo obtenga una representación igual de tiendas. Por lo tanto, un cubo podría recibir más visitantes de las tiendas con la tasa de éxito del 50%, o viceversa.

¿Qué importancia tiene esto?

Una posible solución es asignar a los visitantes en serie (no al azar) en cubos basados en la tienda. Así, para la tienda A, el visitante 1 de esa tienda entra en el cubo 1, el visitante 2 en el cubo 2, y todo el camino hasta el 5, por lo que el visitante 6 va al cubo 1 de nuevo. ¿Es esto necesario o incluso estadísticamente válido o crea un sesgo?

Gracias - estoy feliz de explicar más o incluso resumir esto en un formato más universal si se prefiere.

3voto

pmgjones Puntos 2372

Su problema es similar al de los ensayos clínicos aleatorios en los que se quiere estratificar sobre una determinada condición clínica. Por ejemplo, en los ensayos de cirugías cardíacas, uno puede querer asegurarse de que un número igual de personas con insuficiencia cardíaca congestiva terminen en cada uno de los grupos (intervención y control).

Así pues, se confecciona una lista de aleatorización separada para las personas con insuficiencia cardíaca congestiva y las que no la padecen, lo que garantiza (a lo largo del tiempo) que el mismo número de personas con insuficiencia cardíaca congestiva acabe en cada grupo.

En su caso, para este enfoque, necesitaría 10.000 listas de aleatorización: una para cada empresa. Esto es posible hacerlo con la automatización. Dentro de cada lista de aleatorización, se bloquearía por grupos de cinco, de modo que cada cinco visitas a esa empresa concreta agotaría los cinco tipos de páginas posibles, pero su orden dentro de cada grupo de cinco se asignaría aleatoriamente.

Una alternativa es limitarse a la simple aleatorización. Si el número de aciertos es muy grande, seguirá habiendo un equilibrio razonable.

0voto

joe fleres Puntos 11

Si su proceso de aleatorización es exógeno a las relaciones que está midiendo, sus resultados deberían ser insesgados.

Si está interesado en los porcentajes de clics de los diferentes tratamientos, estará considerando las diferencias en el media tasa. El número de elementos de cada cubo influirá en su confianza en la tasa media que obtenga y, por extensión, en su confianza en que este valor sea diferente de otro tratamiento. Pero el número de elementos en el cubo no sesgará la media.

En los casos en los que se quiere comparar la distribución de algunas cualidades entre dos poblaciones para ver si las distribuciones son diferentes, no se puede seleccionar en esas cualidades porque el tamaño de los cubos es lo que está investigando. Es fundamental no seleccionar en su variable dependiente. Pero no parece que estés haciendo eso aquí.

De hecho, si su proceso de aleatorización es bueno, probablemente no tendrá exactamente el mismo número de artículos en cada cubo. Y eso está bien. :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X