26 votos

Qué tiene de malo la (cierta) pseudoaleatorización

Me encontré con un estudio en el que los pacientes, todos mayores de 50 años, fueron pseudoaleatorizados por año de nacimiento. Si el año de nacimiento era un número par, atención habitual, si un número impar, intervención.

Es más fácil de aplicar, es más difícil de subvertir (es fácil comprobar qué tratamiento debería haber recibido un paciente), es fácil de recordar (la asignación se prolongó durante varios años). Pero aun así, no me gusta, creo que una aleatorización adecuada habría sido mejor. Pero no puedo explicar por qué.

¿Me equivoco al pensar así, o hay alguna buena razón para preferir la aleatorización "real"?

0 votos

¡Por las respuestas anteriores, me parece mejor "aleatorizar" por DÍA de nacimiento! impar día a tratamiento, incluso día a control... Adalberto

7 votos

@Adalberto Eso pierde el punto principal, que es que cualquier Definitivamente, no se puede garantizar que un procedimiento no aleatorio de asignación de sujetos a grupos tenga las propiedades deseables que tiene un procedimiento aleatorio. Supongamos que se invierten años en un estudio de este tipo para que después un revisor señale un factor de confusión inesperado pero importante entre el tratamiento y la paridad del día de nacimiento. Como no podemos prever todos esos factores de confusión, eludimos el problema mediante la asignación aleatoria.

28voto

Nameless Puntos 933

Hace bien en mostrarse escéptico. En general, se debería utilizar una aleatorización "real", porque normalmente no se tienen todos los conocimientos sobre los factores relevantes (inobservables). Si una de esas inobservables está correlacionada con que la edad sea impar o par, entonces también lo está con que hayan recibido o no el tratamiento. Si este es el caso, no podemos identificar el efecto del tratamiento: los efectos que observamos podrían deberse al tratamiento o al factor o factores no observados.

Esto no es un problema con la aleatorización real, donde no esperamos ninguna dependencia entre el tratamiento y las variables no observables (aunque, por supuesto, para muestras pequeñas puede estar ahí).

Para construir una historia de por qué este procedimiento de aleatorización podría ser un problema, supongamos que el estudio sólo incluyera sujetos que tuvieran 17/18 años cuando, digamos, empezó la guerra de Vietnam. Con 17 años no había ninguna posibilidad de ser reclutado (corríjanme si me equivoco), mientras que sí la había con 18 años. Suponiendo que la probabilidad no fuera despreciable y que la experiencia de la guerra cambia a las personas, implica que, años después, estos dos grupos son diferentes, aunque sólo les separe 1 año. Así que quizás el tratamiento (fármaco) parece que no funciona, pero como sólo el grupo con veteranos de Vietnam lo recibió, esto puede deberse en realidad a que no funciona en personas con TEPT (u otros factores relacionados con ser veterano). En otras palabras, se necesita que ambos grupos (tratamiento y control) sean idénticos, excepto por el tratamiento, para identificar el efecto del tratamiento. Con la asignación por edad, este no es el caso.

Así que, a menos que se pueda descartar que no hay diferencias no observadas entre los grupos (pero ¿cómo hacerlo si no se observa?), es preferible la aleatorización real.

0 votos

Gracias. Bonito ejemplo. (Olvidé llamarlo pseudo-aleatorización, lo he editado en la pregunta ).

2 votos

(+1) Al leer la pregunta, Vietnam fue el primer ejemplo que me vino inmediatamente a la mente. Me ha hecho gracia ver que usted había tomado el mismo camino. Supongo que es la opción más obvia dadas las edades declaradas de los sujetos, aunque las edades comprendidas entre principios y mediados de los 60 se acercan un poco más.

0 votos

Disculpas por el ping off-topic: hay una sugerencia en Meta para hacer [randomized-experiment] un sinónimo de la etiqueta [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Tienes suficiente reputación en esta etiqueta para votar esta sugerencia aquí: stats.stackexchange.com/tags/random-allocation/synonyms - ahora necesita 4 upvotes para pasar. Si no estás de acuerdo con la propuesta, considera comentar en Meta para explicar por qué. Borraré este comentario en breve. Saludos.

22voto

jldugger Puntos 7490

Es un buen ejercicio defender de vez en cuando opiniones contrarias, así que permítanme que empiece ofreciendo algunas razones a favor de esta forma de pseudoaleatorización. Principalmente, que se diferencia poco de cualquier otra forma de sistemática muestreo, como la obtención de muestras de medios ambientales en puntos de una cuadrícula en el campo o el muestreo de cada dos árboles de un huerto, por lo que este muestreo podría gozar de ventajas comparables.

La analogía es perfecta: edad se "cuadriculó" por años partiendo de un origen cero y la asignación a los grupos se alternó a lo largo de esta cuadrícula (unidimensional). Algunas de las ventajas de este enfoque son que garantiza una dispersión amplia y uniforme de la muestra por el campo o el huerto (o las edades, en este caso), lo que ayuda a equilibrar las influencias relacionadas con la ubicación (o el tiempo). Esto puede ser especialmente útil cuando la teoría sugiere que la localización es el factor predominante en la variación de la respuesta. Además, salvo en el caso de muestras realmente pequeñas, el análisis de los datos como si eran una simple muestra aleatoria introduce relativamente poco error. Además, es posible cierta aleatorización: en el campo podemos elegir al azar el origen y la orientación de la cuadrícula. En el caso que nos ocupa, al menos podemos aleatorizar si los años pares son controles o sujetos de tratamiento.

Otra ventaja del muestreo en cuadrícula es la detección de variaciones localizadas. Sobre el terreno, se trataría de "bolsas" de respuestas inusuales. Estadísticamente, podemos considerarlas manifestaciones de correlación espacial. En la situación actual, si hay alguna posibilidad de que un rango de edad relativamente estrecho experimente respuestas inusuales, entonces el diseño en cuadrícula es una opción excelente, porque un diseño puramente aleatorio puede contener por casualidad grandes diferencias de edad dentro de uno de los grupos. (Pero un diseño mejor podría ser estratificar: utilizar la paridad de edad para formar dos grupos analíticos. estratos y luego, independientemente dentro de cada estrato, aleatorizar a los pacientes en grupos de control y de tratamiento).

Por desgracia, esta defensa se desmorona una vez que comprendamos cómo se comunican realmente las edades. Los datos del censo de EE.UU. muestran que (1) las edades autodeclaradas tienden a redondearse a múltiplos de cinco (lo he visto en análisis de datos de grupos de bloques rurales) y (2) esta tendencia está asociada a indicadores de menor educación o estatus socioeconómico. (También es bien sabido, aunque difícil de comprobar, que el último dígito de muchas edades autodeclaradas es $9$ Por ejemplo, las personas que trabajan en determinados ámbitos, como la interpretación, tienden a reducir su edad declarada, mientras que otras la exageran con diversos fines). Así pues, al menos hasta cierto punto en algunas zonas de EE.UU. (y más aún en otras partes del mundo), la paridad de la edad declarada es probablemente asociarse a factores importantes para el experimento. Esto hace que la preocupación de la pregunta sea menos que hipotética: es real. Llegados a este punto, las respuestas anteriores en este hilo presentan de forma competente las reflexiones adicionales que me gustaría hacer, así que me detendré y le invito a releerlas.

3 votos

(+1) Sobre todo, por el contraargumento establecido.

13voto

Judioo Puntos 625

Estoy de acuerdo en que el ejemplo que pones es bastante inocuo, pero...

Si los agentes implicados (ya sea la persona que reparte la intervención o las personas que la reciben) conocen el sistema de asignación, pueden aprovecharse de él. Esta autoselección debería ser bastante obvia, por lo que resulta problemática en la mayoría de los diseños experimentales.

Un ejemplo que conozco en criminología es el siguiente: el experimento pretendía probar el efecto disuasorio de pasar una noche en la cárcel tras una disputa doméstica frente a pedir simplemente al agresor que se fuera por esa noche. A los agentes se les entregaba un cuaderno de hojas, y el color de la hoja de la parte superior debía identificar el tratamiento que se suponía que debía recibir el autor del incidente en cuestión.

Lo que acabó ocurriendo fue que los agentes desobedecieron intencionadamente el diseño del estudio y eligieron una hoja basándose en sus preferencias personales sobre lo que debía hacerse con el delincuente. No es descabellado sospechar que, al menos en su ejemplo, es posible que se produzca un fraude similar.

0 votos

Buen ejemplo, gracias, pero parte del razonamiento era que el amaño era mucho más difícil: no podían argumentar que la hoja era (digamos) amarilla, porque puedo ir a comprobar la fecha de nacimiento y ver si se asignaron correctamente.

3 votos

Estoy de acuerdo @JeremyMiles, es sólo otra razón sin embargo para los estudios aleatorios de doble ciego. Es simplemente un argumento en contra de la pseudo-aleatorización - que es más fácil eludir el tratamiento previsto que la aleatorización real. (Mi ejemplo en realidad no es un ejemplo de pseudoaleatorización, pero ilustra el punto sucintamente).

0 votos

Bueno, eso depende de cómo se hizo la (verdadera) aleatorización: las personas implicadas en el estudio lo hicieron en parte para evitar problemas de subversión. Si se utiliza la aleatorización real, es necesario llevar un buen registro para garantizar que la persona que determina la aleatorización se comunica con la persona que administra el tratamiento, y que ésta hace lo correcto. En tu ejemplo, si hubieran utilizado el número de casa (por ejemplo), los agentes lo habrían tenido más difícil para subvertir, aunque no fuera aleatorio.

0voto

alexs77 Puntos 36
  1. Lo que propones NO es pseudoaleatorización. La pseudoaleatorización utiliza una semilla para generar de forma reproducible una secuencia pseudoaleatoria basada en el reloj interno de un ordenador. La asignación aleatoria NO depende de las características del paciente.

  2. El objetivo de la aleatorización es equilibrar la distribución de las covariables predictivas, no sólo las medias (y ni siquiera está garantizado que se consiga). En otras palabras, para cualquier paciente tratado, el control más cercano disponible siempre diferirá en un año de edad. Aunque es cierto que se ha publicado poco sobre las características de las personas nacidas en años pares frente a las nacidas en años impares, se introduce una sensibilidad que, de otro modo, sería discutible si se utilizara la aleatorización tradicional.

  3. Si utiliza un criterio determinista para aleatorizar a los pacientes, ¿cómo garantizará una asignación aproximada 50:50 (u otra) de tratamiento frente a control? La situación empeora exponencialmente si se intenta estratificar, por ejemplo, por centros.

  4. ¿Qué pasa si necesita aleatorizar a uno de tres ¿tratamientos diferentes? O peor aún, ¿qué tal una aleatorización adaptativa en la que se empieza a aleatorizar a uno de los tres brazos de tratamiento y luego, basándose en la seguridad o la eficacia, se decide abandonar un brazo y aleatorizar 1:1?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X