4 votos

Tratamiento del sesgo previo a la prueba mediante muestreo aleatorio repetido

Estoy tratando con datos cero inflados que tienen una volatilidad extrema. Deseo asignar aleatoriamente X observaciones/participantes/sujetos de los datos, tratar a la mitad de ellos con un nuevo tratamiento ("objetivo") y no tratar a la otra mitad ("base"). En otras palabras, quiero realizar una prueba A/B.

El problema es que, aunque elija aleatoriamente 200 000 observaciones para cada grupo (base y objetivo), sigo observando una diferencia bastante grande entre ellos antes del tratamiento: un "sesgo previo a la prueba". Esta diferencia puede llegar al 4%, que suele ser superior al impacto de mi tratamiento real.

Mi objetivo es reducir este sesgo previo a la prueba tanto como pueda, sin obstaculizar la validez de mis pruebas.

Esto es lo que tengo en mente:

  1. Tomar una muestra aleatoria de X observaciones de mi población que será mi muestra para el experimento.
  2. Divida aleatoriamente la muestra en "base" y "objetivo".
  3. Calcule la diferencia inicial entre la base y el objetivo en %, antes de hacer nada (el sesgo previo a la prueba).
  4. Si la diferencia es superior al 1% (en cualquier dirección), repita las fases 2 y 3.
  5. Sólo cuando calcule una diferencia lo suficientemente pequeña, llevaré a cabo mi experimento.

¿Es un método válido? ¿Cuáles son sus inconvenientes? ¿Considera que tiene alguna ventaja frente a un método de muestreo equilibrado como el "método del cubo"? Algunos de mis colegas tienen dudas sobre la aleatoriedad de mi sugerencia, pero no llegamos a un veredicto.

Muchas gracias. Matan

3voto

Björn Puntos 457

Este es un tema que se plantea mucho en los ensayos clínicos aleatorizados. Como resultado, existe una amplia literatura sobre la aleatorización adaptativa de covariables en esa área (véase, por ejemplo. esta revisión ). Sin embargo, la forma en que se aleatoriza afecta a la forma en que se debe analizar ("Analizar a medida que se aleatoriza"); véase, por ejemplo este documento y éste lo que es especialmente importante si haces algo especialmente complicado. Por ejemplo, no estoy nada seguro de cómo manejar tu esquema de aleatorización en el análisis. Algunos esquemas simples que hacen que el análisis sencillo:

  • Aleatorizar por estratos con estratos separados para los que no han tenido ningún acontecimiento previo y los que sí lo han tenido. De este modo, se garantiza que estos dos grupos estén exactamente equilibrados en los brazos base y objetivo; la cuestión principal es si todavía le preocupan los posibles desequilibrios entre los que han tenido eventos previos (para conocer algunas estrategias posibles, véase más abajo).
  • Aleatorizar cada registro secuencialmente de forma que sea más probable que mejore el equilibrio. Ejemplo:
    • Hay demasiados ceros en el brazo base y muy pocos en el brazo objetivo, aparece otro registro cero, lo asignamos al brazo objetivo con probabilidad 0,75 y al brazo base con probabilidad 0,25 (y al revés si el desequilibrio es al revés, 1:1 si no hay desequilibrio). O cualquier otro esquema que sea similar y sólo tienes que ir pasando los registros uno tras otro intentando equilibrar cada vez.
    • Según este esquema, se registra la probabilidad de que cada elemento haya sido asignado a cada brazo y luego se ajusta por ello en el análisis.
    • Si sólo tiene unas pocas opciones de asignación posibles (por ejemplo, 0,25:0,75, 0,5:0,5, 0,75:0,25), entonces podemos hacer el análisis estratificado por estrato de asignación.
    • Tenga en cuenta que este enfoque supone que sus observaciones son independientes; si no es así (por ejemplo, en el caso de enfermedades infecciosas, intervenir sobre un miembro de la familia, por ejemplo con una vacuna, podría afectar sustancialmente a la probabilidad de infección de otros miembros de la familia), las cosas se complican mucho más. Una forma sencilla de evitar complicaciones podría ser aleatorizar a un nivel en el que la independencia vuelva a existir (por ejemplo, en el ejemplo de las enfermedades infecciosas, a nivel familiar o comunitario).
    • Es importante destacar que nunca se desea que la probabilidad de ser asignado a un brazo u otro sea demasiado alta (de lo contrario, a medida que la probabilidad de un brazo se acerca a 1,0, el registro deja de aportar información para la comparación de interés).

La otra cuestión es si puedes soportar un cierto nivel de desequilibrio. ¿Hasta qué punto afecta esto realmente a su análisis, especialmente si puede utilizar los niveles anteriores a la intervención como covariable en su modelo de análisis (algo que suele ser obvio)? ¿Existen transformaciones (por ejemplo, con algunas variables como el cociente albúmina-creatinina en pacientes, porque los residuos de regresión no son realmente normales, por lo que probablemente querría realizar una transformación logarítmica para evitar que uno o dos valores realmente extremos arrastren masivamente la media aritmética hacia arriba por casualidad) o modelos (por ejemplo, para datos de recuento, un modelo binomial negativo o binomial negativo inflado a cero con ajuste para el logaritmo de 0,5 + el número de eventos previos) que se vean menos afectados por los valores extremos? Es posible que desee hacer estas cosas, incluso si equilibra las covariables a través de su aleatorización (pero compruebe en la literatura si esto afecta a la forma de hacerlo, por ejemplo, no estoy 100% seguro de si debe tener diferentes coeficientes de covariables por estrato).

Obsérvese también que, en un experimento aleatorio, el objetivo de la aleatorización no es en sí equilibrar los grupos en la línea de base (véase, por ejemplo, la amplio debate aquí con enlaces), sino para asegurarse de que entiende el proceso de aleatoriedad. Eso no significa que no quieras aumentar la eficacia de tu análisis, por ejemplo, ajustando las variables pronósticas conocidas en tu análisis (o quizá equilibrar las covariables también ayude).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X