Me pregunto cómo una variable instrumental aborda el sesgo de selección en la regresión.
Este es el ejemplo que estoy masticando: En Econometría inofensiva los autores analizan una regresión IV relacionada con el servicio militar y los ingresos en etapas posteriores de la vida. La pregunta es: "¿El servicio militar aumenta o disminuye los ingresos futuros?". Investigan esta cuestión en el contexto de la guerra de Vietnam. Entiendo que el servicio militar no puede asignarse aleatoriamente, y que esto es un problema para la inferencia causal.
Para abordar esta cuestión, el investigador utiliza la posibilidad de ser llamado a filas (como en "su número de reclutamiento es llamado") como un instrumento para el servicio militar real. Esto tiene sentido: el reclutamiento de Vietnam aleatoriamente asignó a los jóvenes estadounidenses al ejército (en teoría; si los reclutas sirvieron realmente es algo que toca a mi pregunta). Nuestra otra condición IV parece sólida: la elegibilidad para el servicio militar obligatorio y el servicio militar real están fuerte y positivamente correlacionados.
Esta es mi pregunta. Parece que habría un sesgo de autoselección: quizá los chicos más ricos puedan librarse de servir en Vietnam, aunque les llamen a filas. (Si ese no fuera realmente el caso, imaginémoslo por el bien de mi pregunta). Si esta autoselección crea un sesgo sistémico dentro de nuestra muestra, ¿cómo aborda nuestra variable instrumental este sesgo? ¿Debemos reducir nuestro ámbito de inferencia a "los tipos de personas que no pudieron escapar al reclutamiento"? ¿O la variable instrumental salva de algún modo esa parte de nuestra inferencia? Si alguien pudiera explicar cómo funciona esto, le estaría muy agradecido.