Voy a suponer, que en su ejemplo, Factor
es el tratamiento, BodyMassIndex
es el resultado, y usted está interesado en el efecto causal del tratamiento Factor
sobre el resultado BodyMassIndex
. Ya que se refiere a tratamiento y controlar grupos, supongo que el tratamiento Factor
es binario. Así que el grupo de tratamiento son aquellas personas que han sido tratadas con Factor
y el grupo de control son los que no lo han hecho.
Si se quiere conocer el efecto causal a partir de datos que no han sido creados con una aleatorización adecuada del tratamiento, hay que tener en cuenta los factores de confusión, ya que deben ser tratados especialmente en el análisis, de lo contrario, pueden arruinar los resultados. Los factores de confusión son variables que afectan causalmente a ambos tratamiento y resultados. En su ejemplo, age
y sex
son esos factores de confusión. Es decir, tienes las siguientes relaciones causales:
Este "tratamiento especial" de los factores de confusión se denomina "ajuste" o "control" de dichos factores ( age
y sex
).
Esto es lo que podría ir mal con los confusores: Digamos que la variable de tratamiento es "estar conectado varias horas al día", y que mientras la mayoría de las personas mayores no lo hacen, casi todas las personas jóvenes sí. Además, supongamos que las personas más jóvenes tienen un mejor IMC. Así que tienes que age
influye de forma causal tanto en el tratamiento como en los resultados . Y el resultado de su encuesta sería que estar conectado varias horas al día mejora el IMC.
Para evitar esas conclusiones erróneas, hay que "ajustar" por factores de confusión como age
. Intuitivamente, una forma de ajustar es seleccionar un subconjunto de sus datos para los que, tanto en el grupo de tratamiento como en el de control, la distribución de la edad es la misma.
Pero hay varias formas posibles de ajustar los factores de confusión. Si se sabe que las relaciones entre las variables son aproximadamente lineales, se puede utilizar regresión lineal en la forma que mencionas, incluyendo todos los factores de confusión en el modelo, y luego el coeficiente de la variable de tratamiento ( Factor
) le da el efecto causal. Tenga en cuenta que este enfoque no no requieren un número igual de participantes en los dos grupos. No es necesario cambiar los datos. La regresión, "automáticamente", hace lo correcto si se incluyen todos los factores de confusión.
Otro enfoque para ajustar los factores de confusión es coincidiendo con . Esto es similar a la solución intuitiva descrita en el ejemplo anterior. Hay varias ventajas y desventajas del emparejamiento en comparación con el enfoque de regresión anterior, y se han escrito muchos libros y documentos para compararlas.
También suele ser beneficioso utilizar ambos métodos a la vez . Para este enfoque híbrido, software también está disponible.
Por último, el término "equilibrio" sólo se utiliza en relación con el emparejamiento y es una especie de indicador de calidad de sus resultados de emparejamiento. Se tiene un buen equilibrio si la distribución de todas las covariables en los grupos de tratamiento y de control es similar. Por ejemplo, en el ejemplo anterior, la proporción de personas jóvenes y mayores debería ser la misma en el tratamiento y en el control. Tenga en cuenta que esto no significa que el recuento total de los individuos debe ser el mismo en el tratamiento y en el control. Sólo necesitamos el proporción para ser similar.