@EpiGrad tiene una respuesta muy buena aquí. Intentaré aportar algunos puntos que espero sean útiles y complementarios.
(Por cierto, @Mimi, deberías hacer clic en la marca junto a una respuesta. Has pedido ayuda y la gente ha dedicado su tiempo a ayudarte. Es de buena educación reconocer que tu pregunta ha sido respondida. Mis disculpas por sonar como un sermón. Puedo borrar este párrafo más tarde).
Depende de cuáles sean sus objetivos. Por ejemplo, es posible que quiera predecir el valor de alguna variable a partir de cierta información; o bien puede que sólo quiera entender las fuerzas que actúan en esta dinámica. Este último objetivo está necesariamente ligado a cuestiones de causalidad, mientras que la predicción puede ignorar la causalidad. Sería perfectamente razonable que la gente de la sanidad pública (por ejemplo, en una agencia gubernamental o un trabajador social, etc.) quisiera ser capaz de predecir algo así. Es posible predecir un efecto a partir de una causa, o una causa a partir de un efecto, o un efecto a partir de otro efecto, etc. Si éste es su objetivo, querrá reunir las covariables a las que tendrán acceso los usuarios de su modelo de predicción. No importa mucho más.
Por otro lado, si quieres entender esta dinámica, debes llegar a comprender el patrón causal subyacente. Debe saber que esto no es ni remotamente una tarea fácil. Debe hacer las cosas que recomienda EpiGrad; sin embargo, debe saber que no garantizan que su estimación de la relación entre el conocimiento del SIDA y las relaciones sexuales sin protección sea una estimación no sesgada de la verdadera relación causal. La determinación de otras posibles variables y la partición de las mismas sólo producirá una estimación no sesgada si la lista de variables que se obtiene constituye todas las variables relevantes. Es muy posible que haya variables relevantes en las que nadie haya pensado todavía. Dado que los métodos de regresión asumen que las variables predictoras se miden sin error (toda la variabilidad del error se considera parte de la variable de respuesta), estas otras variables no pensadas se colapsarán en el término de error de la variable de respuesta. Esto provoca el problema de la endogeneidad. Cualquier buen libro de econometría tratará ampliamente estas cuestiones. Los enfoques habituales para tratar la endogeneidad incluyen estudios cuasi-experimentales La regresión de variables instrumentales (tratada a fondo en cualquier texto de econometría), y emparejamiento por puntuación de propensión .