7 votos

¿Significativo del área bajo las curvas en el diagrama de lazo?

Siguiente gráco se obtiene en la realización de LAZO utilizando glmnet paquete:

enter image description here

¿Hay algún significado de área bajo las curvas (con 0 como línea de base) en los informes de las variables con significación? Podemos decir que la importancia de las distintas variables en la predicción de la variable dependiente es reflejada por el área bajo su curva? Así que aquí la púrpura y negro variables son probablemente igual de importante. Ellos son seguidos por (en orden descendente) de profundidad, azul, verde, luz azul y roja variables.

2voto

eldering Puntos 3814

Un par de cosas que de inmediato se me ocurren acerca de esto.

Creo que spdrnl del derecho, debido a la estandarización, los tamaños del efecto deben ser comparables. Parece que puede darse el caso de que la parcela está en la escala de la original de variables aunque, me gustaría comprobar que es verdad y trabajar con una parcela de los coeficientes de la estandarización de los predictores.

Primera observación. Creo que usted querrá tener cuidado con su región de integración. Supongamos que la mayoría de los modelos de predicción está asociada con un $\log(\lambda)$ en algún lugar en el medio de la parcela. A continuación, los modelos correspondientes a la parte izquierda de la parcela se overfit, y solo capturar el ruido en los datos. Usted probablemente no quiere informe sobre esta área. Así, en términos de lambda, yo recomendaría la integración de:

$$ \int_0^{\lambda_{opt}} | \beta_i(t) | $$

Second observation. You are going to lose some subtlety with non-monotonic coefficient paths. I'm thinking of your lasso example from yesterday

enter image description here

Here the area method would report some definite significance for cyl. What's really true is that cyl is important for small models, then the effect drops out for large models. The area approach does not capture this. You may want to complement your area measurements with comments or pictures focusing on these interesting cases.

Finally, you'll have to choose what to measure on your x-axis. The choices are $\lambda$, $\log(\lambda)$ and $\sum_i | \beta_i |$. Me inclino hacia la última, ya que es medir cuánto del total asignado coeficiente de presupuesto para cada predictor. Los demás sólo son interpretables a pesar de multiplicadores de Lagrange, lo que es difícil estar seguro de lo que está siendo medido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X