Perdona si esta pregunta resulta un poco básica.
Quiero utilizar la selección de variables LASSO para un modelo de regresión lineal múltiple en R. Tengo 15 predictores, uno de los cuales es categórico (¿causará esto un problema?). Después de establecer mi $x$ y $y$ Utilizo los siguientes comandos:
model = lars(x, y)
coef(model)
Mi problema es que cuando uso coef(model)
. Esto devuelve una matriz con 15 filas, con un predictor extra añadido cada vez. Sin embargo, no hay ninguna sugerencia sobre qué modelo elegir. ¿Me he perdido algo? ¿Hay alguna forma de conseguir que el paquete lars devuelva sólo un " mejor "¿Modelo?
Hay otros posts que sugieren el uso de glmnet
pero esto parece más complicado. Un intento es el siguiente, utilizando el mismo $x$ y $y$ . ¿Me he perdido algo aquí?
cv = cv.glmnet(x, y)
model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min)
predict(model, type="coefficients")
El comando final devuelve una lista de mis variables, la mayoría con un coeficiente aunque algunas son =0. ¿Es esta la elección correcta del " mejor "¿el modelo seleccionado por LASSO? Si a continuación, ajuste un modelo lineal con todas mis variables que tenían coeficientes not=0
Obtengo estimaciones de coeficientes muy similares, pero ligeramente diferentes. ¿Hay alguna razón para esta diferencia? ¿Sería aceptable volver a ajustar el modelo lineal con estas variables elegidas por LASSO y tomarlo como modelo final? Por lo demás, no veo ningún valor p de significación. ¿Me he perdido algo?
En
type.gaussian="covariance"
garantizar que glmnet
utiliza la regresión lineal múltiple?
¿Afecta la normalización automática de las variables a los coeficientes? ¿Hay alguna forma de incluir términos de interacción en un procedimiento LASSO?
Estoy buscando utilizar este procedimiento más como una demostración de cómo se puede utilizar LASSO que para cualquier modelo que realmente se utilizará para cualquier inferencia / predicción importante si eso cambia algo.
Gracias por tomarse el tiempo de leer esto. Cualquier comentario general sobre LASSO/lars/glmnet también sería muy apreciado.