Según M. Katz en su libro Análisis multivariable (Sección 1.2, página 6), "Un factor de confusión está asociado con el factor de riesgo y relacionado causalmente con el resultado." ¿Por qué debe el factor de confusión estar relacionado causalmente con el resultado? ¿Sería suficiente que el factor de confusión esté asociado con el resultado?
Respuesta
¿Demasiados anuncios?¿Por qué el confundidor debe estar causalmente relacionado con el resultado? ¿Sería suficiente que el confundidor estuviera asociado con el resultado?
No, no es suficiente.
Empecemos con el caso donde puedes tener una variable que está asociada tanto con el resultado como con el tratamiento, pero controlarla sesgaría tu estimación.
Por ejemplo, considera el siguiente grafo causal, tomado de Pearl, donde $Z$ es un pre-tratamiento colisionador:
En este caso, no hay confusión, puedes estimar el efecto de X en Y directamente.
Nota, sin embargo, que Z está asociada tanto con el tratamiento como con el resultado. Pero sigue sin ser una variable de confusión. De hecho, si controlas por Z en este caso sesgarías tu estimación. Esta situación se conoce como sesgo M (debido a la estructura del grafo).
Otro caso similar y más directo donde no deberías controlar es cuando la variable es resultado tanto del tratamiento $X$ como del resultado $Y$. Toma este sencillo grafo colisionador:
Aquí, de nuevo, Z está asociada con X e Y, pero no es una variable de confusión. No deberías controlar por ella.
Ahora, es importante notar que incluso si una variable está causalmente relacionada con el resultado, tampoco necesariamente es una variable de confusión.
Veamos el caso de los mediadores, en el sencillo grafo a continuación:
Si quieres medir el efecto total de D en Y, no deberías controlar por cosas que median el efecto --- en este caso M. Es decir, M está causalmente relacionada con Y, pero tampoco es una variable de confusión respecto al efecto total de D en Y.
Nota, sin embargo, que definir confusión es mucho más fácil que definir qué es un confundidor. Para una discusión más estricta de la definición de confundidor, quizás quieras leer este artículo de VanderWeele y Shpitser.
¿Por qué es esto así? Porque el concepto primario aquí es el de la confusión en sí misma, no de los confundidores. Para tu pregunta de investigación, deberías preguntarte "¿cómo puedo eliminar la confusión?" en lugar de "¿esta variable es un confundidor?".
Y como nota final, vale la pena mencionar que estas concepciones erróneas siguen siendo generalizadas. Solo para ilustrar, toma esta cita de un artículo de 2016:
La inferencia causal en ausencia de un experimento aleatorizado o un fuerte diseño cuasi-experimental requiere condicionar de manera apropiada en todas las variables pre-tratamiento que predicen tanto el tratamiento como el resultado, también conocidas como covariables de confusión.
Como hemos mostrado en los ejemplos anteriores, esto es incorrecto. Las variables de confusión no son "todas las variables pre-tratamiento que predicen tanto el tratamiento como el resultado". Controlar por todas ellas podría no ser necesario para eliminar la confusión o incluso podría sesgar tus resultados. Pearl tiene una muy buena visión general sobre la confusión aquí.