La esencia misma del lasso es que se supone que debe seleccionar solo una de dos variables correlacionadas.
Sin embargo, cuando incluyo dos predictores altamente correlacionados (que están correlacionados entre sí en un nivel de aproximadamente 0.95), ambos están siendo seleccionados con un valor de coeficiente absoluto similar (en el predictor estandarizado), pero con signos diferentes. Esto significa que su efecto en la predicción casi se cancela, pero los coeficientes del modelo en la entrada estandarizada son los más altos de todas las variables.
Ejemplo:
x coefs
(Intercepto) 91.6958266
Población_2013 -49.2656083
Población_2014 46.8513210
donde Variable1 y Variable2 están altamente correlacionadas. Otros variables correlacionadas y no correlacionadas también se incluyen en el modelo. Ejecuto modelos en cualquier lugar entre 20 y 20000 variables y el efecto es similar para estas variables correlacionadas.
¿Hay alguna solución? Alternativamente, ¿cómo de otra forma puedo determinar qué variables afectan significativamente mi predicción?