41 votos

Cómo se presentan los resultados de un Lazo utilizando glmnet?

Me gustaría encontrar predictores de un continuo de la variable dependiente de un conjunto de 30 variables independientes. Yo estoy usando el Lazo de regresión, como el implementado en el glmnet paquete en R. he Aquí algunos de código de prueba:

# generate a dummy dataset with 30 predictors (10 useful & 20 useless) 
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)

# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1

# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res 

Mi pregunta es cómo interpretar la salida:

  • Es correcto decir que en el resultado final de todos los predictores que muestran un coeficiente diferente de cero están relacionadas con la variable dependiente?

  • Tendría que ser suficiente informe en el contexto de una publicación de la revista? O se espera que proveer prueba-estadísticas de la significación de los coeficientes? (El contexto es la genética humana)

  • Es razonable que para calcular los valores de p o de otra prueba estadística para reclamar importancia? ¿Cómo podría ser eso posible? Es un procedimiento implementado en R?

  • Sería una regresión simple de la trama (datos de los puntos graficados con un ajuste lineal) para cada predictor ser una vía adecuada para visualizar estos datos?

  • Tal vez alguien puede proporcionar algunos sencillos ejemplos de los artículos publicados que muestran el uso de Lazo en el contexto de algunos datos reales y cómo informar de esto en un diario?

22voto

Bou Puntos 1859

Mi entendimiento es que no se dice mucho acerca de las variables que son "importantes" o "real" efectos sobre la base de si sus coeficientes son diferentes de cero. Para dar un ejemplo extremo, si usted tiene dos predictores que son perfectamente colineales, el lazo tomará uno de ellos esencialmente al azar para obtener el peso total y el otro cero peso.

Este documento, que incluye uno de los autores de glmnet, presenta algunas glmnet basados en los análisis (ver especialmente: la Introducción, Secciones 2.3 y 4.3 y de las Tablas 4 y 5). Ojeando, parece que no calcule P con valores directamente desde el glmnet modelo. Hicieron calcular dos tipos diferentes de valores de P para el uso de otros métodos, pero no parecen confiar plenamente en cualquiera de ellos.

No estoy 100% seguro de lo que usted está sugiriendo en términos de representación de los métodos, pero creo que suena razonable.

Espero que ayude.

10voto

daknowles Puntos 274

Sólo quería señalar que no es un trabajo reciente, tratando de desarrollar un estadístico de prueba específicamente para el LAZO, que tiene en cuenta la selección de la función que se esté realizando:

La significación de la prueba para el lazo. Richard Lockhart, Jonathan Taylor, Ryan J. Tibshirani, Robert Tibshirani. http://arxiv.org/abs/1301.7161

Yo no he visto esto utilizados en los trabajos aplicados sin embargo, mientras que el "bootstrapping" ciertamente se utiliza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X