Creo que de modelos causales es la clave para responder a esta pregunta. Uno se enfrenta desde el principio para identificar correctamente ajustado/estratificado/controlado el efecto de interés antes de siquiera mirar los datos. Si yo fuera a la estimación de la altura, la capacidad pulmonar de relación en los adultos, me gustaría ajustar el tabaquismo, ya que el fumar impide el crecimiento y las influencias de la capacidad pulmonar. Los factores de confusión son las variables que están causalmente relacionadas con el predictor de interés y se asocian con el resultado de interés. Ver la Causalidad de Judea Pearl, 2ª ed. Uno debe especificar y el poder de su análisis para la correcta variables de confusión antes de que el proceso de recolección de datos, incluso empieza a utilizar la lógica racional y el conocimiento previo de los anteriores estudios exploratorios.
Esto no significa, sin embargo, que algunos investigadores no dependen de data-driven métodos para seleccionar el ajuste de variables. No estoy de acuerdo con hacer esto en la práctica, cuando la realización de análisis confirmatorio. Algunas técnicas comunes en la selección de modelo para varios modelos ajustados se adelante/atrás el modelo de selección donde se puede restringir a las clases de modelos que crees ser, al menos, plausible. La caja negra de la AIC criterios de selección para esto está relacionado con la probabilidad y, por lo tanto, el grado de reducción en el $R^2$ para modelos lineales de estas ajuste de variables. Otro proceso común en epidemiología es donde las variables se añaden a la modelo si cambian la estimación del efecto principal (como una odds ratio o razón de riesgo) a menos del 10%. Mientras que esto es "más" correctos que los AIC modelo basado en la selección, creo que hay importantes advertencias en este enfoque.
Mi recomendación es prespecify el análisis deseado como parte de una hipótesis. La edad ajustada de fumar, el riesgo de cáncer es un parámetro diferente, y conduce a los diferentes inferencia en un estudio controlado que el crudo de fumar, el riesgo de cáncer. Mediante el conocimiento de la materia es la mejor manera de seleccionar los predictores de ajuste en el análisis de regresión, o como la estratificación, la correspondencia, o la ponderación de las variables en los diversos tipos de "controlar" los análisis experimentales y cuasi-experimentales de diseño.