Es un buen ejercicio defender de vez en cuando opiniones contrarias, así que permítanme que empiece ofreciendo algunas razones a favor de esta forma de pseudoaleatorización. Principalmente, que se diferencia poco de cualquier otra forma de sistemática muestreo, como la obtención de muestras de medios ambientales en puntos de una cuadrícula en el campo o el muestreo de cada dos árboles de un huerto, por lo que este muestreo podría gozar de ventajas comparables.
La analogía es perfecta: edad se "cuadriculó" por años partiendo de un origen cero y la asignación a los grupos se alternó a lo largo de esta cuadrícula (unidimensional). Algunas de las ventajas de este enfoque son que garantiza una dispersión amplia y uniforme de la muestra por el campo o el huerto (o las edades, en este caso), lo que ayuda a equilibrar las influencias relacionadas con la ubicación (o el tiempo). Esto puede ser especialmente útil cuando la teoría sugiere que la localización es el factor predominante en la variación de la respuesta. Además, salvo en el caso de muestras realmente pequeñas, el análisis de los datos como si eran una simple muestra aleatoria introduce relativamente poco error. Además, es posible cierta aleatorización: en el campo podemos elegir al azar el origen y la orientación de la cuadrícula. En el caso que nos ocupa, al menos podemos aleatorizar si los años pares son controles o sujetos de tratamiento.
Otra ventaja del muestreo en cuadrícula es la detección de variaciones localizadas. Sobre el terreno, se trataría de "bolsas" de respuestas inusuales. Estadísticamente, podemos considerarlas manifestaciones de correlación espacial. En la situación actual, si hay alguna posibilidad de que un rango de edad relativamente estrecho experimente respuestas inusuales, entonces el diseño en cuadrícula es una opción excelente, porque un diseño puramente aleatorio puede contener por casualidad grandes diferencias de edad dentro de uno de los grupos. (Pero un diseño mejor podría ser estratificar: utilizar la paridad de edad para formar dos grupos analíticos. estratos y luego, independientemente dentro de cada estrato, aleatorizar a los pacientes en grupos de control y de tratamiento).
Por desgracia, esta defensa se desmorona una vez que comprendamos cómo se comunican realmente las edades. Los datos del censo de EE.UU. muestran que (1) las edades autodeclaradas tienden a redondearse a múltiplos de cinco (lo he visto en análisis de datos de grupos de bloques rurales) y (2) esta tendencia está asociada a indicadores de menor educación o estatus socioeconómico. (También es bien sabido, aunque difícil de comprobar, que el último dígito de muchas edades autodeclaradas es $9$ Por ejemplo, las personas que trabajan en determinados ámbitos, como la interpretación, tienden a reducir su edad declarada, mientras que otras la exageran con diversos fines). Así pues, al menos hasta cierto punto en algunas zonas de EE.UU. (y más aún en otras partes del mundo), la paridad de la edad declarada es probablemente asociarse a factores importantes para el experimento. Esto hace que la preocupación de la pregunta sea menos que hipotética: es real. Llegados a este punto, las respuestas anteriores en este hilo presentan de forma competente las reflexiones adicionales que me gustaría hacer, así que me detendré y le invito a releerlas.
0 votos
¡Por las respuestas anteriores, me parece mejor "aleatorizar" por DÍA de nacimiento! impar día a tratamiento, incluso día a control... Adalberto
7 votos
@Adalberto Eso pierde el punto principal, que es que cualquier Definitivamente, no se puede garantizar que un procedimiento no aleatorio de asignación de sujetos a grupos tenga las propiedades deseables que tiene un procedimiento aleatorio. Supongamos que se invierten años en un estudio de este tipo para que después un revisor señale un factor de confusión inesperado pero importante entre el tratamiento y la paridad del día de nacimiento. Como no podemos prever todos esos factores de confusión, eludimos el problema mediante la asignación aleatoria.