29 votos

Inferencia después de utilizar Lasso para la selección de variables

Estoy utilizando Lasso para la selección de características en un entorno de dimensiones relativamente bajas (n >> p). Después de ajustar un modelo Lasso, quiero utilizar las covariables con coeficientes no nulos para ajustar un modelo sin penalización. Lo hago porque quiero estimaciones insesgadas que Lasso no puede proporcionarme. También quiero valores p e intervalos de confianza para la estimación insesgada.

Tengo problemas para encontrar bibliografía sobre este tema. La mayor parte de la literatura que encuentro trata de poner intervalos de confianza en las estimaciones de Lasso, no un modelo reajustado.

Por lo que he leído, el simple reajuste de un modelo utilizando todo el conjunto de datos conduce a valores p/errores std poco realistas. En este momento, la división de la muestra (al estilo de Wasserman y Roeder (2014) o Meinshausen et al. (2009)) parece ser un buen curso de acción, pero estoy buscando más sugerencias.

¿Alguien se ha encontrado con este problema? Si es así, ¿podría aportar alguna sugerencia?

0 votos

No entiendo por qué debería importar que el estimador del lazo esté sesgado mientras los intervalos de confianza tengan (al menos asintóticamente) una cobertura correcta. ¿Es ésta la única razón por la que quiere ajustar las estimaciones OLS en el soporte recuperado por el lazo?

0 votos

Quizás he entendido mal lo que he leído, pero ¿la cobertura asintóticamente correcta no se refiere a la estimación sesgada, no a la verdadera estimación dispersa pero insesgada?

2 votos

No estoy seguro de lo que quieres decir con una estimación "verdaderamente dispersa pero insesgada", pero si sabes que las estimaciones del lazo tienen intervalos de confianza con una cobertura asintóticamente correcta, no debería haber más que hacer. El artículo que acaba de enlazar Greenparker (+1) es realmente interesante (y el más reciente que conozco sobre este tema) que discute (en parte) cómo se podrían desarrollar intervalos de confianza asintóticamente correctos sobre los coeficientes de lasso y ols. Trato de señalar que no es necesario ajustar OLS para obtener coeficientes insesgados, ya que la insesgadez no importa.

23voto

Helper Puntos 1

En general, volver a ajustar sin penalización después de haber hecho la selección de variables mediante el Lasso se considera "trampa", ya que se han mirado los datos y los valores p y los intervalos de confianza resultantes no son válidos en el sentido habitual.

Este Un artículo muy reciente analiza exactamente lo que se quiere hacer, y explica las condiciones en las que el ajuste de un lazo, la elección de las variables importantes y el reajuste sin la penalización del lazo conducen a una validez $p$ -valores e intervalos de confianza. Su razonamiento intuitivo es que

el conjunto de variables seleccionadas por el lazo es determinista y no depende de los datos con alta probabilidad.

Por lo tanto, mirar los datos dos veces no es un problema. Tendrás que ver si para tu problema se cumplen las condiciones indicadas en el documento o no.

(También hay muchas referencias útiles en el documento)


Referencia:

Zhao, S., Shojaie, A., y Witten, D. (2017). En defensa de lo indefendible: Un enfoque muy ingenuo para la inferencia de alta dimensión. Recuperado de: https://arxiv.org/pdf/1705.05543.pdf

13 votos

+1 No obstante, cabe señalar que los autores hacen explícitamente no recomiendan su enfoque excepto "en entornos de datos muy grandes": "No abogamos por aplicar el... enfoque descrito anteriormente en la mayoría de los entornos prácticos de análisis de datos: estamos seguros de que en la práctica... este enfoque tendrá un mal rendimiento cuando el tamaño de la muestra sea pequeño o moderado, y/o no se cumplan los supuestos" (en la p. 27). Para que conste, este artículo es de Zhao, Shojaie y Witten, En defensa de lo indefendible: Un enfoque muy ingenuo de la inferencia de alta dimensión (16 de mayo de 2017).

0 votos

@whuber Y también hay que tener en cuenta que este artículo está en arxiv.org - no estoy seguro de si ha sido revisado por pares por lo que puede haber otros problemas con la metodología del autor.

21voto

B.Schubert Puntos 16

Para añadir a las respuestas anteriores. Definitivamente, deberías consultar el reciente trabajo de Tibshirani y sus colegas. Han desarrollado un marco riguroso para inferir los valores p corregidos por selección y los intervalos de confianza para los métodos de tipo lazo y también proporcionan un paquete de R.

Ver:

Lee, Jason D., et al. "Inferencia exacta post-selección, con aplicación al lazo". The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan, y Robert J. Tibshirani. "Aprendizaje estadístico e inferencia selectiva". Actas de la Academia Nacional de Ciencias 112.25 (2015): 7629-7634.

Paquete R:

https://cran.r-project.org/web/packages/selectiveInference/index.html

3voto

wheaties Puntos 20917

Quería añadir algunos artículos de la literatura de aprendizaje automático ortogonal/doble que se está haciendo popular en la literatura de Econometría Aplicada.

  • Belloni, Alexandre, Victor Chernozhukov y Christian Hansen. "Inferencia sobre los efectos del tratamiento después de la selección entre los controles de alta dimensión". The Review of Economic Studies 81.2 (2014): 608-650.

    Este trabajo aborda las propiedades teóricas de una estimación OLS del efecto de una variable después de seleccionar los "otros" controles utilizando LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, Volume 21, Issue 1, 1 February 2018, Pages C1-C68, https://doi.org/10.1111/ectj.12097

    Desarrolla la teoría integral para utilizar una serie de métodos no paramétricos (algoritmos de ML) para controlar de forma no lineal un parámetro molesto de alta dimensión (factores de confusión) y luego estudiar el impacto de una covariable específica en el resultado. Tratan marcos parcialmente lineales y marcos completamente paramétricos. También consideran situaciones en las que la variable de interés está confundida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X