Estoy utilizando Lasso para la selección de características en un entorno de dimensiones relativamente bajas (n >> p). Después de ajustar un modelo Lasso, quiero utilizar las covariables con coeficientes no nulos para ajustar un modelo sin penalización. Lo hago porque quiero estimaciones insesgadas que Lasso no puede proporcionarme. También quiero valores p e intervalos de confianza para la estimación insesgada.
Tengo problemas para encontrar bibliografía sobre este tema. La mayor parte de la literatura que encuentro trata de poner intervalos de confianza en las estimaciones de Lasso, no un modelo reajustado.
Por lo que he leído, el simple reajuste de un modelo utilizando todo el conjunto de datos conduce a valores p/errores std poco realistas. En este momento, la división de la muestra (al estilo de Wasserman y Roeder (2014) o Meinshausen et al. (2009)) parece ser un buen curso de acción, pero estoy buscando más sugerencias.
¿Alguien se ha encontrado con este problema? Si es así, ¿podría aportar alguna sugerencia?
0 votos
No entiendo por qué debería importar que el estimador del lazo esté sesgado mientras los intervalos de confianza tengan (al menos asintóticamente) una cobertura correcta. ¿Es ésta la única razón por la que quiere ajustar las estimaciones OLS en el soporte recuperado por el lazo?
0 votos
Quizás he entendido mal lo que he leído, pero ¿la cobertura asintóticamente correcta no se refiere a la estimación sesgada, no a la verdadera estimación dispersa pero insesgada?
2 votos
No estoy seguro de lo que quieres decir con una estimación "verdaderamente dispersa pero insesgada", pero si sabes que las estimaciones del lazo tienen intervalos de confianza con una cobertura asintóticamente correcta, no debería haber más que hacer. El artículo que acaba de enlazar Greenparker (+1) es realmente interesante (y el más reciente que conozco sobre este tema) que discute (en parte) cómo se podrían desarrollar intervalos de confianza asintóticamente correctos sobre los coeficientes de lasso y ols. Trato de señalar que no es necesario ajustar OLS para obtener coeficientes insesgados, ya que la insesgadez no importa.
0 votos
Creo que he sido malinterpretado. La cobertura asintóticamente correcta a la que te refieres es con respecto al parámetro verdadero. Entonces, aunque Lasso dé coeficientes sesgados, ¿podemos construir intervalos de confianza que tengan la cobertura correcta para el parámetro verdadero?
0 votos
Sí, así es asintóticamente
4 votos
Una vez que haya seleccionado un modelo, no tendrá estimaciones sin base si estima sin Lasso. Los coeficientes de los términos en el modelo después de seleccionar-variables-entonces-ajustar-vía-OLS estarán realmente sesgados lejos de 0 (como con otras formas de selección de variables). Una pequeña cantidad de contracción puede reducir el sesgo.