12 votos

Cómo interpretar los resultados cuando tanto la cresta como el lazo funcionan bien por separado pero producen coeficientes diferentes

Estoy ejecutando un modelo de regresión con Lasso y Ridge (para predecir una variable de resultado discreta que va de 0 a 5). Antes de ejecutar el modelo, utilizo SelectKBest método de scikit-learn para reducir el conjunto de características de 250 a 25 . Sin una selección inicial de características, tanto Lasso como Ridge arrojan puntuaciones de precisión más bajas [lo que podría deberse al pequeño tamaño de la muestra, 600]. Además, hay que tener en cuenta que algunas características están correlacionadas.

Después de ejecutar el modelo, observo que la precisión de la predicción es casi la misma con Lasso y Ridge. Sin embargo, cuando compruebo las 10 primeras características después de ordenarlas por el valor absoluto de los coeficientes, veo que hay como máximo un 50% de solapamiento.

Es decir, dado que cada método asignó una importancia diferente a los rasgos, podría tener una interpretación totalmente diferente en función del modelo que elija.

Normalmente, las características representan algunos aspectos del comportamiento del usuario en un sitio web. Por lo tanto, quiero explicar los resultados destacando las características (comportamientos de los usuarios) con mayor capacidad de predicción frente a las características más débiles (comportamientos de los usuarios). Sin embargo, no sé cómo avanzar en este punto. ¿Cómo debo enfocar la interpretación del modelo? Por ejemplo, ¿debería combinar ambos y resaltar el que se superpone, o debería ir con Lasso ya que proporciona más interpretabilidad?

3 votos

(+1) La regularización puede considerarse como un empeoramiento de las estimaciones individuales de los coeficientes, al tiempo que mejora su rendimiento colectivo en la predicción de nuevas respuestas. ¿Qué es exactamente lo que intenta conseguir con su interpretación?

1 votos

@Scortchi gracias por responder. He añadido esto Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

3 votos

+1 AFAIK la relación entre los coeficientes de cresta y lambda no tiene que ser monótona, mientras que en lasso lo es. Por lo tanto, a determinados niveles de contracción, el valor absoluto de los coeficientes en ridge y lasso puede variar mucho. Dicho esto, agradecería si alguien puede esbozar una prueba de esto o explicarlo brevemente de forma matemática

7voto

que que Puntos 1435

La regresión Ridge favorece que todos los coeficientes sean pequeños. La regresión Lasso fomenta que muchos/muchos[**] coeficientes se vuelvan cero, y unos pocos no cero. Ambos reducirán la precisión en el conjunto de entrenamiento, pero mejorarán la predicción de alguna manera:

  • La regresión ridge intenta mejorar la generalización en el conjunto de pruebas, reduciendo el sobreajuste
  • el lazo reducirá el número de coeficientes no nulos, aunque esto penalice el rendimiento tanto en los conjuntos de entrenamiento como de prueba

Puede obtener diferentes opciones de coeficientes si sus datos están muy correlacionados. Así, puede tener 5 características que están correlacionadas:

  • Al asignar coeficientes pequeños pero no nulos a todas estas características, la regresión de cresta puede lograr una baja pérdida en el conjunto de entrenamiento, que podría generalizarse al conjunto de pruebas
  • el lazo podría elegir sólo uno de estos, que se correlaciona bien con los otros cuatro. y no hay ninguna razón por la que debería elegir la característica con el coeficiente más alto en la versión de regresión de cresta

[*] para una definición de "elegir" que significa: asigna un coeficiente distinto de cero, lo que sigue siendo un poco de mano, ya que los coeficientes de regresión de cresta tenderán a ser todos distintos de cero, pero, por ejemplo, algunos podrían ser como 1e-8, y otros podrían ser, por ejemplo, 0,01

[Matiz: como señala Richard Hardy, para algunos casos de uso, un valor de $\lambda$ puede elegirse de forma que todos los coeficientes LASSO sean distintos de cero, pero con una cierta contracción

0 votos

Buenas sugerencias. Una buena comprobación sería hacer una matriz de correlación. Las variables no superpuestas pueden estar muy correlacionadas.

3 votos

Buena respuesta Sin embargo, no estoy seguro de que sea justo sugerir que la cresta intenta universalmente mejorar el rendimiento de la prueba mientras que no se dice lo mismo del lazo. Por ejemplo, si el modelo verdadero es disperso (y en el subconjunto de nuestros predictores), podemos esperar inmediatamente que el lasso tenga un mejor rendimiento en las pruebas que el ridge

0 votos

Este es el principio de "apostar por la escasez". Por ejemplo, véase el primer gráfico aquí: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X