Para responder a su primera pregunta, está en lo cierto al afirmar que la selección de la muestra es una forma específica de endogeneidad (véase Antonakis et al. 2010 para una buena revisión básica de la endogeneidad y remedios comunes), sin embargo, no está en lo cierto al afirmar que la probabilidad de ser tratado es la variable endógena, ya que es la propia variable de tratamiento ("asignación no aleatoria del tratamiento") -en lugar de la probabilidad de ser tratado- la que es endógena en la selección de la muestra. Recordemos que la endogeneidad se refiere a una situación en la que se ha identificado incorrectamente una relación causal entre el factor X y el factor Y, cuando la "relación" observada se debe en realidad a otro factor Z que afecta tanto a X como a Y. Dicho de otro modo, dado un modelo de regresión:
$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$
La endogeneidad se produce cuando uno o más de uno de sus predictores está relacionado con el término de error del modelo. Es decir, cuando $Cov(x,\epsilon)\ne0$ .
Las causas comunes de endogenidad incluyen:
- Variables omitidas (hay cosas que no podemos medir)
- Motivación/elección
- Capacidad/talento
- Autoselección
- Error de medición (nos gustaría incluir $x_j$ pero sólo observamos $x_j*$ )
- Simultaneidad/bidireccionalidad (en niños menores de 5 años, la relación entre el indicador del estado nutricional "peso para la edad" y si el niño ha tenido una enfermedad reciente podría ser simultánea.
Los distintos tipos de problemas requieren soluciones ligeramente diferentes, que es donde radica la diferencia entre las correcciones IV y las de tipo Heckman. Por supuesto, existen diferencias en la mecánica subyacente de estos métodos, pero la premisa es la misma: eliminar la endogeneidad, idealmente mediante una restricción de exclusión, es decir, uno o más instrumentos en el caso de IV o una variable que afecte a la selección pero no al resultado en el caso de Heckman.
Para responder a su segunda pregunta, hay que pensar en las diferencias en los tipos de limitaciones de datos que dieron lugar al desarrollo de estas soluciones. Me gusta pensar que el enfoque de variables instrumentales (IV) se utiliza cuando una o más variables son endógenas, y simplemente no hay buenas variables sustitutivas que introducir en el modelo para eliminar la endogeneidad, pero las covariables y los resultados se observan para todas las observaciones. Las correcciones de tipo Heckman, por otro lado, se utilizan cuando hay truncamiento, es decir, la información no se observa para aquellos en la muestra en los que el valor de la variable de selección == 0.
El enfoque de variables instrumentales (IV)
Pensemos en el ejemplo econométrico clásico de regresión IV con el estimador de mínimos cuadrados en dos etapas (2SLS): el efecto de la educación en los ingresos.
$Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$ (1)
En este caso, el nivel de estudios es endógeno porque viene determinado en parte por la motivación y la capacidad del individuo, factores que también influyen en sus ingresos. La motivación y la capacidad no suelen medirse en las encuestas económicas o de hogares. Por lo tanto, la ecuación 1 puede redactarse de modo que incluya explícitamente la motivación y la capacidad:
$Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$ (2)
Desde $Motiv$ y $Abil$ no se observan realmente, la Ecuación 2 puede escribirse como:
$Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$ (3),
donde $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$ (4).
Por lo tanto, una estimación ingenua del efecto de la educación sobre los ingresos mediante MCO estaría sesgada. Esta parte ya la conoce.
En el pasado, se ha utilizado la educación de los padres como instrumento para determinar el nivel de educación del propio sujeto, ya que cumple los 3 requisitos de un instrumento válido ( $z$ ):
- $z$ debe estar relacionado con el predictor endógeno - $