Para citar la obra de Angrist y Pischke (2009) Mostly Harmless Econometrics,
"...aunque un modelo no lineal puede ajustarse a la función de expectativas condicionales (CEF) para los modelos de variables dependientes limitadas (LDV) con más precisión que un modelo lineal, cuando se trata de efectos marginales, esto probablemente importa poco". Esta conclusión optimista no es un teorema, pero como en el ejemplo empírico aquí, parece ser una verdad bastante robusta." (p. 107)
Por lo tanto, si está interesado en el efecto causal medio (lo que parece ser el caso de su pregunta), el uso de LPM y de probit IV debería ser adecuado. Sin embargo, ambos tienen sus ventajas y desventajas.
Por ejemplo, si está interesado en la predicción, el LPM no será bueno, ya que las probabilidades predichas no están restringidas a estar entre cero y uno. Si tiene conglomerados en sus errores estándar (en su caso, es probable que las personas de las mismas regiones estén sometidas a impactos similares en su situación laboral), los errores estándar se ajustan más fácilmente en LPM. Por otro lado, el probit IV es mucho más caro en términos de cálculo y también hay que calcular los efectos marginales para obtener coeficientes interpretables - en Stata se puede hacer esto con la función margins
comando.
Para más información sobre el LPM y el IV probit, consulte lo siguiente notas a partir de la página 34. El argumento de que LPM está bien en este caso también se hace en Wooldridge (2010) Econometric Analysis of Cross Section and Panel Data.
Aunque esta es la opinión general actual sobre LPM v.s. IV probit/logit hay algunos trabajos recientes que tratan de demostrar que LPM no es tan bueno después de todo. La principal referencia para esto debería ser Lewbel et al (2012) . Sin embargo, su ejemplo contra el LPM está bastante construido, ya que sólo se aplica a casos de datos bastante extremos. No obstante, puede que merezca la pena echarle un vistazo porque también comparan diferentes métodos.