Estoy ejecutando un modelo de regresión con Lasso y Ridge (para predecir una variable de resultado discreta que va de 0 a 5). Antes de ejecutar el modelo, utilizo SelectKBest
método de scikit-learn
para reducir el conjunto de características de 250 a 25 . Sin una selección inicial de características, tanto Lasso como Ridge arrojan puntuaciones de precisión más bajas [lo que podría deberse al pequeño tamaño de la muestra, 600]. Además, hay que tener en cuenta que algunas características están correlacionadas.
Después de ejecutar el modelo, observo que la precisión de la predicción es casi la misma con Lasso y Ridge. Sin embargo, cuando compruebo las 10 primeras características después de ordenarlas por el valor absoluto de los coeficientes, veo que hay como máximo un 50% de solapamiento.
Es decir, dado que cada método asignó una importancia diferente a los rasgos, podría tener una interpretación totalmente diferente en función del modelo que elija.
Normalmente, las características representan algunos aspectos del comportamiento del usuario en un sitio web. Por lo tanto, quiero explicar los resultados destacando las características (comportamientos de los usuarios) con mayor capacidad de predicción frente a las características más débiles (comportamientos de los usuarios). Sin embargo, no sé cómo avanzar en este punto. ¿Cómo debo enfocar la interpretación del modelo? Por ejemplo, ¿debería combinar ambos y resaltar el que se superpone, o debería ir con Lasso ya que proporciona más interpretabilidad?
3 votos
(+1) La regularización puede considerarse como un empeoramiento de las estimaciones individuales de los coeficientes, al tiempo que mejora su rendimiento colectivo en la predicción de nuevas respuestas. ¿Qué es exactamente lo que intenta conseguir con su interpretación?
1 votos
@Scortchi gracias por responder. He añadido esto
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
3 votos
+1 AFAIK la relación entre los coeficientes de cresta y lambda no tiene que ser monótona, mientras que en lasso lo es. Por lo tanto, a determinados niveles de contracción, el valor absoluto de los coeficientes en ridge y lasso puede variar mucho. Dicho esto, agradecería si alguien puede esbozar una prueba de esto o explicarlo brevemente de forma matemática
0 votos
Asegúrese de ordenar los coeficientes "beta". Véase stats.stackexchange.com/a/243439/70282 Se pueden obtener entrenando sobre variables estandarizadas o ajustando posteriormente como se describe en el enlace.
0 votos
Me pregunto si esto se aplica es.wikipedia.org/wiki/Paradoja de Simpson
1 votos
@ukaszGrad Los coeficientes de LASSO no tienen por qué ser funciones monótonas de $\lambda$ si los predictores están correlacionados; véase la figura 6.6 de ISLR para un ejemplo.
0 votos
Por otro lado, podrías probar con la red elástica.
0 votos
@RichardHardy gracias por su respuesta. ¿Puedes dar más información sobre cómo la red elástica podría ayudar a esto? Te lo agradezco.
0 votos
Es un camino intermedio entre el lazo y la cresta. Utiliza una combinación ponderada de $L_1$ y $L_2$ sanciones. No estoy seguro de que pueda ayudar mucho a la interpretación, pero podría conseguir una mayor precisión en las previsiones. Además, si se observa el peso relativo de $L_1$ vs $L_2$ optimiza el rendimiento, probablemente podría obtener alguna información adicional.
0 votos
@renakre ¿cómo estás midiendo el rendimiento predictivo?
0 votos
@bdeonovic ¿Qué quieres decir exactamente? Estoy usando el Error Absoluto Medio para medir el rendimiento, ¿responde esto a tu pregunta? Gracias por el interés.
0 votos
@renakre puedes medir el rendimiento predictivo ajustando el modelo con los datos, y luego usando los mismos datos para medir lo bien que se ajusta tu modelo. Esto dará lugar a una estimación sesgada, ya que has utilizado los datos para ajustar el modelo Y los mismos datos para estimar el rendimiento. Es mejor utilizar $k$ -La validación cruzada doble (¡mira cómo se llama este lugar!) donde se dividen los datos en $k$ partes, encajan en la primera $k-1$ partes y pruebe el rendimiento en la última parte, siga haciéndolo hasta que haya probado en cada una de las $k$ partes y la media sobre eso.