Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

34 votos

¿Por qué utilizar las estimaciones Lasso en lugar de las estimaciones OLS en el subconjunto de variables identificadas por Lasso?

Para la regresión Lasso L(β)=(Xβy)(Xβy)+λ Supongamos que la mejor solución (mínimo error de comprobación, por ejemplo) selecciona k características, de modo que \hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) .

Sabemos que \left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right) es una estimación sesgada de \left(\beta_1,\beta_2,...,\beta_k\right) Entonces, ¿por qué seguimos tomando \hat{\beta}^{lasso} como la solución final, en lugar de la más "razonable \hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right) , donde \hat{\beta}_{1:k}^{new} es la estimación LS del modelo parcial L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y) . ( X_{1:k} denota las columnas de X correspondiente al k características seleccionadas).

En resumen, ¿por qué utilizamos Lasso tanto para la selección de características como para la estimación de parámetros, en lugar de utilizarlo sólo para la selección de variables (y dejar la estimación de las características seleccionadas a OLS)?

(Además, ¿qué significa que 'Lasso puede seleccionar como máximo n características"? n es el tamaño de la muestra).

32voto

Dreur Puntos 28

No creo que haya nada de malo en utilizar LASSO para la selección de variables y luego utilizar OLS. De " Elementos de aprendizaje estadístico " (pág. 91)

...la contracción del lazo hace que las estimaciones de los coeficientes no nulos estén sesgadas hacia el cero y en general no son consistentes [ Nota añadida: Esto significa que, a medida que aumenta el tamaño de la muestra, las estimaciones de los coeficientes no convergen]. . Un enfoque para reducir este sesgo es ejecutar el lazo para identificar el conjunto de coeficientes no nulos y, a continuación, ajustar un modelo lineal no restringido al conjunto de características seleccionadas. Esto no siempre es factible, si el conjunto seleccionado es grande. Como alternativa, se puede utilizar el lazo para seleccionar el conjunto de predictores no nulos y, a continuación, aplicar el lazo de nuevo, pero utilizando sólo los predictores seleccionados en el primer paso. Esto se conoce como lazo relajado (Meinshausen, 2007). La idea es utilizar la validación cruzada para estimar el parámetro de penalización inicial para el lazo, y luego de nuevo para un segundo parámetro de penalización aplicado al conjunto de predictores seleccionados. Dado que las variables del segundo paso tienen menos "competencia" de las variables de ruido, la validación cruzada tenderá a elegir un valor menor para \lambda [el parámetro de penalización], y por lo tanto sus coeficientes se reducirán menos que los de la estimación inicial.

Otro enfoque razonable, similar en espíritu al lazo relajado, sería utilizar el lazo una vez (o varias veces en tándem) para identificar un grupo de variables predictoras candidatas. A continuación, utilizar regresión de los mejores subconjuntos para seleccionar las mejores variables predictoras a tener en cuenta (véase también "Elementos de aprendizaje estadístico" para esto). Para que esto funcione, tendría que refinar el grupo de predictores candidatos hasta unos 35, lo que no siempre será factible. Puede utilizar la validación cruzada o el AIC como criterio para evitar el sobreajuste.

16voto

Bill Puntos 16

Si su objetivo es un rendimiento óptimo dentro de la muestra (en lo que respecta a la R cuadrada más alta), entonces utilice simplemente OLS en cada variable disponible. La eliminación de variables reducirá el R-cuadrado.

Si su objetivo es un buen rendimiento fuera de la muestra (que suele ser lo más importante), su estrategia propuesta sufrirá dos fuentes de sobreajuste:

  • Selección de variables en función de las correlaciones con la variable de respuesta
  • Estimaciones OLS

El propósito de LASSO es reducir las estimaciones de los parámetros hacia cero para combatir las dos fuentes de sobreajuste mencionadas. Las predicciones dentro de la muestra siempre serán peores que las de OLS, pero la esperanza es (dependiendo de la fuerza de la penalización) obtener un comportamiento más realista fuera de la muestra.

En cuanto a p > n : Esto depende (probablemente) de la implementación de LASSO que esté utilizando. Una variante, Lars (least angle regression), funciona fácilmente para p > n .

3voto

SD. Puntos 560

En cuanto a la pregunta de la OP de por qué Lasso puede seleccionar como máximo n características:

Considere por qué un MCO puede estar sesgado: es cuando hay más predictores ( p ) que las observaciones ( n ). Así, X^{T}X es de tamaño [p,p] en \beta = (X^{T} X)^{-1}X^{T}Y . Tomar la inversa de dicha matriz no es posible (puede ser singular).

Lasso se ve obligado a reducir los coeficientes de las variables para que esto no ocurra, por lo que nunca selecciona más de n características para que X^{T}X es siempre invertible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X