4 votos

La parte superior de las variables de LAZO no importante en regular la regresión

Tengo una tabla con 65 los registros y 1000 variables para las que yo uso LAZO para realizar la selección de características. A continuación, con el fin de cuantificar el impacto relativo de las variables, me regresan la respuesta sólo en estas variables el uso tradicional de regresión lineal.

De las 25 variables, a solo 5 son estadísticamente significativas. ¿Cómo debo interpretar el hecho de que el LAZO que nos dice que 25 de estas variables de 1000 son importantes, pero de regresión lineal, a continuación, indica que sólo 5 de ellos son significativos?

8voto

eldering Puntos 3814

Kodiologist con razón señala que no hay ninguna razón para creer que estos conceptos son relacionados.

Richard Hardy, en los comentarios, señala los principales estadísticos de error en el procedimiento. Para ampliar un poco, la validación cruzada para el procedimiento que utilizó para seleccionar el valor óptimo del parámetro de regularización en sí es también objeto de ruido. Si usted bootstrap sus datos y hacer todo el procedimiento muchas veces, usted encontrará que su elección del parámetro de regularización no es consistente. El problema es que sus intervalos de confianza para la estimación de los parámetros deben reflejar esta variación, y es esta fuente de variación que Richard señala que está causando los intervalos a ser demasiado pequeño.

Una manera simple para convencerse de esto es considerar los predictores que LAZO, ¿ no incluir en el modelo. En su posterior regresión lineal deja fuera. Usted tiene esencialmente luego dijo, con 100% de certeza, que estos parámetros son cero. Los otros que dejaron en el modelo que tiene atribuida alguna variación. ¿Por qué la diferencia? ¿ Realmente creen que el verdadero parámetros para el seleccionado de distancia de las variables son cero, con 100% de confianza?

Afortunadamente, este experimento apunta también a una solución. Si a usted le gusta usar el LAZO y también la estimación de los errores estándar de los últimos parámetros, se puede utilizar un procedimiento de arranque.

for each bootstrap sample B from your training data
    split B into cross validation folds
    for each cross validation fold
        fit LASSO for each considered regularization parameter
        get estimate of out of sample error for each regularization parameter
    find optimal regularization parameter for training data B
    fit LASSO model with the optimal parameter on the entire sample B
    record the estimated parameters from the full LASSO model on B
return the variance of the estimated parameters over the bootstrap samples

Esto le da una feria de registro de la varianza en la estimación de los parámetros.

5voto

avid Puntos 161

Aunque apresurada de las glosas de lazo de regularización y la significación estadística podría sugerir que ellos hacen lo mismo, ellos hacen cosas muy diferentes. La significación estadística de un coeficiente de pruebas de una hipótesis nula acerca de que el coeficiente dado un modelo más pequeño como un fondo de asunción. Lasso de la regularización, por otro lado, las estimaciones de valores del coeficiente minimizando un término de penalización basado en la suma de los valores absolutos de los coeficientes. Estos objetivos muy diferentes significa que no hay ninguna razón por la que estos métodos deben estar de acuerdo sobre cualquier cosa.

con el fin de cuantificar el impacto relativo de las variables, me regresan la respuesta sólo en estas variables el uso tradicional de regresión lineal.

¿Por qué no utilizar los coeficientes de el lasso modelo que ya forma? No es que el modelo que usted está tratando de evaluar?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X