22 votos

Modelos de dos etapas: Diferencia entre los modelos de Heckman (para tratar la selección de la muestra) y las variables instrumentales (para tratar la endogeneidad).

Estoy intentando entender la diferencia entre selección de la muestra y endogeneidad y, a su vez, en qué se diferencian los modelos de Heckman (para tratar la selección de la muestra) de las regresiones de variables instrumentales (para tratar la endogeneidad).

¿Es correcto decir que la selección de la muestra es una forma específica de endogeneidad, en la que la variable endógena es la probabilidad de ser tratado?

Además, me parece que tanto los modelos de Heckman como la regresión IV son modelos de 2 etapas, en los que la primera etapa predice la probabilidad de ser tratado - supongo que deben diferir en términos de lo que están haciendo empíricamente, sus objetivos y supuestos, pero ¿cómo?

30voto

marquisdecarabas Puntos 591

Para responder a su primera pregunta, está en lo cierto al afirmar que la selección de la muestra es una forma específica de endogeneidad (véase Antonakis et al. 2010 para una buena revisión básica de la endogeneidad y remedios comunes), sin embargo, no está en lo cierto al afirmar que la probabilidad de ser tratado es la variable endógena, ya que es la propia variable de tratamiento ("asignación no aleatoria del tratamiento") -en lugar de la probabilidad de ser tratado- la que es endógena en la selección de la muestra. Recordemos que la endogeneidad se refiere a una situación en la que se ha identificado incorrectamente una relación causal entre el factor X y el factor Y, cuando la "relación" observada se debe en realidad a otro factor Z que afecta tanto a X como a Y. Dicho de otro modo, dado un modelo de regresión:

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

La endogeneidad se produce cuando uno o más de uno de sus predictores está relacionado con el término de error del modelo. Es decir, cuando $Cov(x,\epsilon)\ne0$ .

Las causas comunes de endogenidad incluyen:

  1. Variables omitidas (hay cosas que no podemos medir)
    • Motivación/elección
    • Capacidad/talento
    • Autoselección
  2. Error de medición (nos gustaría incluir $x_j$ pero sólo observamos $x_j*$ )
  3. Simultaneidad/bidireccionalidad (en niños menores de 5 años, la relación entre el indicador del estado nutricional "peso para la edad" y si el niño ha tenido una enfermedad reciente podría ser simultánea.

Los distintos tipos de problemas requieren soluciones ligeramente diferentes, que es donde radica la diferencia entre las correcciones IV y las de tipo Heckman. Por supuesto, existen diferencias en la mecánica subyacente de estos métodos, pero la premisa es la misma: eliminar la endogeneidad, idealmente mediante una restricción de exclusión, es decir, uno o más instrumentos en el caso de IV o una variable que afecte a la selección pero no al resultado en el caso de Heckman.

Para responder a su segunda pregunta, hay que pensar en las diferencias en los tipos de limitaciones de datos que dieron lugar al desarrollo de estas soluciones. Me gusta pensar que el enfoque de variables instrumentales (IV) se utiliza cuando una o más variables son endógenas, y simplemente no hay buenas variables sustitutivas que introducir en el modelo para eliminar la endogeneidad, pero las covariables y los resultados se observan para todas las observaciones. Las correcciones de tipo Heckman, por otro lado, se utilizan cuando hay truncamiento, es decir, la información no se observa para aquellos en la muestra en los que el valor de la variable de selección == 0.

El enfoque de variables instrumentales (IV)

Pensemos en el ejemplo econométrico clásico de regresión IV con el estimador de mínimos cuadrados en dos etapas (2SLS): el efecto de la educación en los ingresos.

$Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$ (1)

En este caso, el nivel de estudios es endógeno porque viene determinado en parte por la motivación y la capacidad del individuo, factores que también influyen en sus ingresos. La motivación y la capacidad no suelen medirse en las encuestas económicas o de hogares. Por lo tanto, la ecuación 1 puede redactarse de modo que incluya explícitamente la motivación y la capacidad:

$Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$ (2)

Desde $Motiv$ y $Abil$ no se observan realmente, la Ecuación 2 puede escribirse como:

$Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$ (3),

donde $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$ (4).

Por lo tanto, una estimación ingenua del efecto de la educación sobre los ingresos mediante MCO estaría sesgada. Esta parte ya la conoce.

En el pasado, se ha utilizado la educación de los padres como instrumento para determinar el nivel de educación del propio sujeto, ya que cumple los 3 requisitos de un instrumento válido ( $z$ ):

  1. $z$ debe estar relacionado con el predictor endógeno - $

8voto

stiduck Puntos 450

Hay que distinguir entre la Selección de la muestra de Heckman (en el que sólo se observa una muestra) y Correcciones de tipo Heckman para la autoselección, que también puede funcionar para el caso en que se observen las dos muestras. Este último caso se denomina función de control y equivale a incluir en su segunda etapa un término que controle la endogeneidad.

Tengamos un caso estándar con una variable ficticia endógena D, un instrumento Z:

$$Y= \beta + \beta_1 D +\epsilon$$ $$D= \gamma + \gamma_1 Z +u$$

Ambos enfoques ejecutan una primera etapa (D en Z). IV utiliza un MCO estándar (incluso si D es una variable ficticia) Heckman utiliza un probit. Pero además de esto, la principal diferencia es la forma en que utilizan esta primera etapa en la ecuación principal:

  • IV rompen la endogeneidad descomponiendo D en partes no correlacionadas con $\epsilon$ dada por la predicción de D: $Y= \beta + \beta_1 \hat{D}+\epsilon$
  • Heckman modelar la endogeneidad: mantener la endógena D, pero añadir una función de los valores predichos de la primera etapa. Para este caso, se trata de una función bastante complicada: $Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ donde $\lambda()$ es la inversa de Ratio Mills

La ventaja del procedimiento Heckman es que proporciona una prueba directa de endogeneidad: el coeficiente $\beta_2$ . Por otro lado, el procedimiento Heckman se basa en el supuesto de normalidad conjunta de los errores, mientras que el IV no hace ningún supuesto de este tipo.

Así que tenemos la historia estándar de que con errores normales, la función de control será más eficiente (especialmente si se utiliza la MLE en lugar de la de dos pasos que se muestra aquí) que la IV, pero que si el supuesto no se cumple, la IV sería mejor. Dado que los investigadores desconfían cada vez más del supuesto de normalidad, la IV se utiliza con más frecuencia.

0voto

Felix Puntos 1712

De Heckman, Urzua y Vytlacil (2006):

Ejemplo de sesgo de selección : Considere los efectos de una política sobre los resultados de un país (por ejemplo, el PIB). Si los países que habrían obtenido buenos resultados en términos de lo inobservable incluso en ausencia de la política son los que la adoptan, entonces las estimaciones OLS están sesgadas.

Dos enfoques principales se han adoptado para resolver este problema: (a) modelos de selección y (b) modelos de variables instrumentales.

El enfoque de selección modela niveles de medias condicionales. El enfoque IV modela las pendientes de las medias condicionales. El IV no identifica las constantes estimadas en los modelos de selección.

El enfoque IV no condiciona a D (el tratamiento). El estimador de selección (función de control) identifica las medias condicionales utilizando funciones de control.

Cuando se utilizan funciones de control con supuestos de curvatura, uno no requiere una restricción de exclusión (no requiere $Z\neq X$ ) en el modelo de selección. Al asumir una forma funcional para la distribución de los términos de error, se descarta la posibilidad de que la media condicional de la ecuación de resultado sea igual a la función de control condicional y, por lo tanto, se puede corregir la selección sin restricciones de exclusión. Véase también Heckman y Navarro (2004).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X