Hace unos días hubo una pregunta similar que tenía la referencia pertinente:
- Belloni, A., Chernozhukov, V., y Hansen, C. (2014) "Inference on Treatment Effects after Selection among High-Dimensional Controls", Review of Economic Studies, 81(2), pp. 608-50 ( enlace )
Al menos para mí, el artículo es bastante difícil de leer porque las pruebas que hay detrás de este modelo relativamente sencillo son bastante elaboradas. Cuando se está interesado en estimar un modelo como $$y_i = \alpha T_i + X_i'\beta + \epsilon_i$$
donde $y_i$ es su resultado, $T_i$ es algún efecto del tratamiento de interés, y $X_i$ es un vector de controles potenciales. El parámetro objetivo es $\alpha$ . Suponiendo que la mayor parte de la variación en su resultado se explica por el tratamiento y un conjunto disperso de controles, Belloni et al. (2014) desarrollan un método de selección doblemente robusto que proporciona estimaciones puntuales correctas e intervalos de confianza válidos. Sin embargo, este supuesto de dispersión es importante.
Si $X_i$ incluye algunos predictores importantes de $y_i$ pero no sabe cuáles son (ya sean variables individuales, sus polinomios de orden superior o interacciones con otras variables), puede realizar un procedimiento de selección en tres pasos:
- retroceder $y_i$ en $X_i$ sus cuadrados e interacciones, y seleccione los predictores importantes mediante LASSO
- retroceder $T_i$ en $X_i$ sus cuadrados e interacciones, y seleccione los predictores importantes mediante LASSO
- retroceder $y_i$ en $T_i$ y todas las variables que se seleccionaron en cualquiera de los dos primeros pasos
Proporcionan pruebas de por qué funciona y por qué con este método se obtienen los intervalos de confianza correctos, etc. También muestran que si sólo se realiza una selección LASSO en la regresión anterior y luego se hace una regresión del resultado sobre el tratamiento y las variables seleccionadas, se obtienen estimaciones puntuales erróneas e intervalos de confianza falsos, como ya ha dicho Björn.
El propósito de hacer esto es doble: comparar su modelo inicial, en el que la selección de variables estaba guiada por la intuición o la teoría, con el modelo de selección doblemente robusto le da una idea de lo bueno que era su primer modelo. Quizás su primer modelo olvidó algunos términos importantes al cuadrado o de interacción y, por tanto, sufre de una forma funcional mal especificada o de variables omitidas. En segundo lugar, el método de Belloni et al. (2014) puede mejorar la inferencia sobre su parámetro objetivo porque los regresores redundantes fueron penalizados en su procedimiento.