2 votos

¿Y si LASSO no puede resolver el problema de la multicolinealidad?

Estoy haciendo una regresión múltiple en uno de mis proyectos. La matriz de diseño de entrada $X$ tiene columnas correlacionadas. Sin embargo, hay algunos "buenos" predictores en $X$ si ajusto sólo los buenos predictores, uno por uno, haciendo OLS, puedo ver un buen resultado de predicción para cada uno de ellos.

Sin embargo, cuando reúno las 20 columnas en LASSO, la predicción en Out-of-Sample se vuelve muy mala.

Mi sospecha es que LASSO no puede manejar la multicolinealidad de $X$

En este caso, ¿qué es lo mejor que se puede probar?

¿Alguna idea?

4voto

usεr11852 Puntos 5514

LASSO se sabe que proporciona soluciones inestables en el caso de características colineales o en situaciones en las que se tienen más características que observaciones. La función objetivo de LASSO (y cualquier otra función objetivo) será incapaz de encontrar una solución única cuando dos o más características contengan información muy similar. Un caso extremo sería tener una característica $x_i$ utilizado dos veces como $x_{i^1}$ y $x_{i^2}$ ; cuál de las dos variantes de la $x_i$ se incluiría en el modelo final sería totalmente arbitrario. Por ello, se recomienda utilizar red elástica regresión en lugar de LASSO. La regresión de red elástica penaliza la $L_1$ (como LASSO) así como el $L_2$ norma (como regresión de cresta )de la estimación $\beta$ coeficientes, lo que lleva a una función objetivo de la forma $ \min_{\beta} \{ \frac{1}{N} ||y -X\beta||_2^2 + \lambda_1||\beta||_1 + \lambda_2 ||\beta|_2^2\}$ . Es importante destacar que el $L_2$ La regularización puede considerarse como una amplificación de las varianzas a lo largo de la diagonal de los parámetros $\beta$ matriz de covarianza; esto ayuda a aliviar (algunos) problemas de colinealidad tanto numéricamente (el número de condición de la matriz de covarianza se reduce) como conceptualmente (la varianza de una característica $x_i$ se amplifica en al menos $\lambda_2$ pero la covarianza cruzada de la misma con otras características $x_j$ permanece estable).

Si está utilizando R, le sugiero que busque en la viñeta del paquete penalizado para un excelente recorrido, encuentro panalized La aplicación de LASSO/elastic-net es la más limpia. El documento original sobre la red elástica de Zou y Hastie Regularización y selección de variables mediante el red elástica también es bastante legible.

Como nota final, asegúrese de que las características utilizadas en la regresión LASSO/ridge/redes elásticas se normalizan antes de ser incluidas en un modelo. Como ambos $\lambda_1$ y $\lambda_2$ regularizar todos los rasgos de forma equivalente, regularizar los rasgos que se registran en diferentes escalas puede dar lugar a una regularización excesiva o insuficiente de los rasgos incluidos.

0voto

user613326 Puntos 157

Bueno, potencialmente con el LASSO todas las 20 covariables podrían ser incluidas en el modelo final, todo depende del valor de penalización que se seleccione. ¿Qué criterio utiliza para decidir el valor de la penalización, BIC, AIC, Mallow's, desviación? ¿Y cuántos predictores conserva el modelo final?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X