25 votos

¿Qué sentido tiene hacer OLS después de la selección de variables LASSO?

Recientemente he descubierto que en la literatura de econometría aplicada, cuando se trata de problemas de selección de características, no es infrecuente realizar LASSO seguido de una regresión OLS utilizando las variables seleccionadas.

Me preguntaba cómo podemos calificar la validez de un procedimiento de este tipo. ¿Causará problemas como el de las variables omitidas? ¿Hay alguna prueba que demuestre que es más eficaz o que los resultados son más interpretables?

He aquí algunos debates relacionados:

Selección de variables con LASSO

Utilización de árboles tras la selección de variables mediante Lasso/Random

Si, como se ha señalado, tal procedimiento no es correcto en general, ¿por qué sigue habiendo tantas investigaciones que lo hacen? ¿Puedo decir que es sólo una regla empírica, una solución de compromiso, debido a algunas de las propiedades incómodas del estimador LASSO, y la afición de la gente hacia OLS?

14voto

Andy Puntos 10250

Hace unos días hubo una pregunta similar que tenía la referencia pertinente:

  • Belloni, A., Chernozhukov, V., y Hansen, C. (2014) "Inference on Treatment Effects after Selection among High-Dimensional Controls", Review of Economic Studies, 81(2), pp. 608-50 ( enlace )

Al menos para mí, el artículo es bastante difícil de leer porque las pruebas que hay detrás de este modelo relativamente sencillo son bastante elaboradas. Cuando se está interesado en estimar un modelo como $$y_i = \alpha T_i + X_i'\beta + \epsilon_i$$

donde $y_i$ es su resultado, $T_i$ es algún efecto del tratamiento de interés, y $X_i$ es un vector de controles potenciales. El parámetro objetivo es $\alpha$ . Suponiendo que la mayor parte de la variación en su resultado se explica por el tratamiento y un conjunto disperso de controles, Belloni et al. (2014) desarrollan un método de selección doblemente robusto que proporciona estimaciones puntuales correctas e intervalos de confianza válidos. Sin embargo, este supuesto de dispersión es importante.

Si $X_i$ incluye algunos predictores importantes de $y_i$ pero no sabe cuáles son (ya sean variables individuales, sus polinomios de orden superior o interacciones con otras variables), puede realizar un procedimiento de selección en tres pasos:

  1. retroceder $y_i$ en $X_i$ sus cuadrados e interacciones, y seleccione los predictores importantes mediante LASSO
  2. retroceder $T_i$ en $X_i$ sus cuadrados e interacciones, y seleccione los predictores importantes mediante LASSO
  3. retroceder $y_i$ en $T_i$ y todas las variables que se seleccionaron en cualquiera de los dos primeros pasos

Proporcionan pruebas de por qué funciona y por qué con este método se obtienen los intervalos de confianza correctos, etc. También muestran que si sólo se realiza una selección LASSO en la regresión anterior y luego se hace una regresión del resultado sobre el tratamiento y las variables seleccionadas, se obtienen estimaciones puntuales erróneas e intervalos de confianza falsos, como ya ha dicho Björn.

El propósito de hacer esto es doble: comparar su modelo inicial, en el que la selección de variables estaba guiada por la intuición o la teoría, con el modelo de selección doblemente robusto le da una idea de lo bueno que era su primer modelo. Quizás su primer modelo olvidó algunos términos importantes al cuadrado o de interacción y, por tanto, sufre de una forma funcional mal especificada o de variables omitidas. En segundo lugar, el método de Belloni et al. (2014) puede mejorar la inferencia sobre su parámetro objetivo porque los regresores redundantes fueron penalizados en su procedimiento.

3voto

Björn Puntos 457

Realizar una selección de variables y luego volver a ejecutar un análisis, como si no hubiera habido selección de variables y el modelo seleccionado hubiera sido el previsto desde el principio, suele dar lugar a tamaños del efecto exagerados, valores p no válidos e intervalos de confianza con una cobertura inferior a la nominal. Tal vez si el tamaño de la muestra es muy grande y hay unos pocos efectos enormes y muchos efectos nulos, LASSO+OLS no se vería muy afectado por esto, pero aparte de eso no puedo ver ninguna justificación razonable y en ese caso las estimaciones LASSO también deberían estar bien.

3voto

Chris Cudmore Puntos 634

Puede ser una excelente idea realizar una regresión OLS después de LASSO. Esto es simplemente para volver a comprobar que su selección de variables LASSO tenía sentido. Muy a menudo, cuando se vuelve a ejecutar el modelo utilizando la regresión OLS, se descubre que muchas de las variables seleccionadas por LASSO no son ni de lejos estadísticamente significativas y/o tienen el signo equivocado. Y, eso puede invitarle a utilizar otro método de selección de variables que, dado su conjunto de datos, puede ser mucho más robusto que LASSO.

LASSO no siempre funciona según lo previsto. Esto se debe a que su algoritmo de ajuste incluye un factor de penalización que penaliza el modelo frente a coeficientes de regresión más altos. Parece una buena idea, ya que la gente piensa que siempre reduce el sobreajuste del modelo y mejora las predicciones (sobre nuevos datos). En realidad, muy a menudo hace lo contrario... aumenta el infraajuste del modelo y debilita la precisión de la predicción. Puede ver muchos ejemplos de ello buscando imágenes en Internet y buscando específicamente "LASSO MSE graph". Siempre que dichos gráficos muestren el MSE más bajo al principio del eje X, muestra un LASSO que ha fallado (aumenta el infraajuste del modelo).

Estas consecuencias imprevistas se deben al algoritmo de penalización. Debido a él, LASSO no tiene forma de distinguir entre una variable causal fuerte con información predictiva y un alto coeficiente de regresión asociado y una variable débil sin valor de información explicativa o predictiva que tiene un coeficiente de regresión bajo. A menudo, LASSO preferirá la variable débil a la variable causal fuerte. Además, a veces puede incluso hacer que cambien los signos direccionales de las variables (cambiar de una dirección que tiene sentido a una dirección opuesta que no lo tiene). Puede ver muchos ejemplos de ello buscando imágenes en Internet y buscando específicamente "LASSO coefficient path".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X