8 votos

Cómo interpretar el gráfico de selección del lazo

Hice la selección del lazo utilizando lars::lars() y luego tengo esta trama. No tengo ni idea de cómo interpretarlo: enter image description here

¿Podría alguien dar una breve explicación? ¿Por qué se traza standardized coefficients contra |beta|/max|beta| ?

0 votos

Estoy un poco frito para escribir una respuesta completa en este momento, pero por si sirve de algo, revisa el artículo "Regression Shrinkage and Selection via the Lasso" de Tibshirani. Prácticamente estás viendo cuántos coeficientes de regresión $\beta$ que está utilizando (el número de líneas verticales sólidas). Más $\beta$ introduzca su ecuación de regresión secuencialmente como su $|\beta|/max(|\beta|)$ aumenta.

0 votos

Gracias por sus comentarios. Lo que más me pregunto es si esta cifra me indica el mejor modelo seleccionado. En otras palabras, ¿qué variables y cuántas deben utilizarse en el modelo seleccionado?

0 votos

No, no ayuda con eso. $\alpha$ /La selección del modelo suele hacerse mediante validación cruzada.

2voto

Affine Puntos 1394

En la regresión, se busca encontrar el $\beta$ que minimiza:
$ (Y - X_1\beta_1 - X_2\beta_2 - \text{...})^2 $

LASSO aplica un término de penalización al problema de minimización:
$ (Y - X_1\beta_1 - X_2\beta_2 - \text{...})^2 + \alpha\sum_i{|\beta_i|}$

Así que cuando $\alpha$ es cero, no hay penalización, y se tiene la solución OLS - esto es max $|\beta|$ (o como no lo escribí como un vector, max $\sum{|\beta_i|}$ ).
Como la penalización $\alpha$ aumenta, $\sum{|\beta_i|}$ se acerca a cero, y los parámetros menos importantes se llevan a cero antes. A cierto nivel de $\alpha$ , todos los $\beta_i$ se han puesto a cero.

Este es el eje x del gráfico. En lugar de presentarlo como alto $\alpha$ a la izquierda disminuyendo a cero al desplazarse a la derecha, lo presenta como la relación de la suma de la estimación absoluta actual sobre la suma de las estimaciones absolutas OLS. Las barras verticales indican cuándo una variable ha sido llevada a cero (y aparecen etiquetadas con el número de variables restantes)

Para el eje Y, que son los coeficientes estandarizados, generalmente cuando se ejecuta LASSO, se estandarizan las variables X para que la penalización se produzca por igual sobre las variables. Si se miden en diferentes escalas, la penalización sería desigual (por ejemplo, considere la posibilidad de multiplicar todos los valores de una variable explicativa por 0,01 - entonces el coeficiente de la estimación OLS sería 100 veces el tamaño, y se tiraría más fuerte al ejecutar LASSO).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X