Me gustaría encontrar predictores de un continuo de la variable dependiente de un conjunto de 30 variables independientes. Yo estoy usando el Lazo de regresión, como el implementado en el glmnet paquete en R. he Aquí algunos de código de prueba:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Mi pregunta es cómo interpretar la salida:
Es correcto decir que en el resultado final de todos los predictores que muestran un coeficiente diferente de cero están relacionadas con la variable dependiente?
Tendría que ser suficiente informe en el contexto de una publicación de la revista? O se espera que proveer prueba-estadísticas de la significación de los coeficientes? (El contexto es la genética humana)
Es razonable que para calcular los valores de p o de otra prueba estadística para reclamar importancia? ¿Cómo podría ser eso posible? Es un procedimiento implementado en R?
Sería una regresión simple de la trama (datos de los puntos graficados con un ajuste lineal) para cada predictor ser una vía adecuada para visualizar estos datos?
Tal vez alguien puede proporcionar algunos sencillos ejemplos de los artículos publicados que muestran el uso de Lazo en el contexto de algunos datos reales y cómo informar de esto en un diario?