5 votos

¿Qué hacer cuando el lazo no elimina variables correlacionadas?

La esencia misma del lasso es que se supone que debe seleccionar solo una de dos variables correlacionadas.

Sin embargo, cuando incluyo dos predictores altamente correlacionados (que están correlacionados entre sí en un nivel de aproximadamente 0.95), ambos están siendo seleccionados con un valor de coeficiente absoluto similar (en el predictor estandarizado), pero con signos diferentes. Esto significa que su efecto en la predicción casi se cancela, pero los coeficientes del modelo en la entrada estandarizada son los más altos de todas las variables.

Ejemplo:

          x         coefs 
 (Intercepto)        91.6958266
 Población_2013   -49.2656083
 Población_2014    46.8513210 

donde Variable1 y Variable2 están altamente correlacionadas. Otros variables correlacionadas y no correlacionadas también se incluyen en el modelo. Ejecuto modelos en cualquier lugar entre 20 y 20000 variables y el efecto es similar para estas variables correlacionadas.

¿Hay alguna solución? Alternativamente, ¿cómo de otra forma puedo determinar qué variables afectan significativamente mi predicción?

4voto

Bonsi Scott Puntos 191

La respuesta resultó ser simple: lambda era bajo, por lo que no había regularización, por lo tanto, lasso no funcionaba como se esperaba. La solución fue seleccionar manualmente lambda en lugar de confiar en lambda para minimizar el error CV.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X