Para la regresión Lasso L(β)=(Xβ−y)′(Xβ−y)+λ‖ Supongamos que la mejor solución (mínimo error de comprobación, por ejemplo) selecciona k características, de modo que \hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) .
Sabemos que \left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right) es una estimación sesgada de \left(\beta_1,\beta_2,...,\beta_k\right) Entonces, ¿por qué seguimos tomando \hat{\beta}^{lasso} como la solución final, en lugar de la más "razonable \hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right) , donde \hat{\beta}_{1:k}^{new} es la estimación LS del modelo parcial L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y) . ( X_{1:k} denota las columnas de X correspondiente al k características seleccionadas).
En resumen, ¿por qué utilizamos Lasso tanto para la selección de características como para la estimación de parámetros, en lugar de utilizarlo sólo para la selección de variables (y dejar la estimación de las características seleccionadas a OLS)?
(Además, ¿qué significa que 'Lasso puede seleccionar como máximo n características"? n es el tamaño de la muestra).