¿La predicción de regresión Lasso en el conjunto de prueba predice hacia la media del conjunto de entrenamiento?

Question

¿La predicción de regresión Lasso en el conjunto de prueba predice hacia la media del conjunto de entrenamiento?

Preguntado el 20 de Mayo, 2022: Cuando se hizo la pregunta
47 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy utilizando la regresión lasso para predecir la edad (datos continuos) a partir de un conjunto que tiene 2112 características numéricas (variable independiente).

El conjunto de datos de formación contiene unos 2773 participantes. La media de la variable de resultado de ese conjunto de datos es de 62,6 y la media de la edad predicha es también de 62,4 aproximadamente. He utilizado gridsearchCV para el ajuste de hiperparámetros.

Estoy utilizando este modelo entrenado en varios conjuntos de datos de prueba. Las medias de la variable de resultado del conjunto de datos de prueba oscilan entre 61,6 y 68,87 aproximadamente.

Sin embargo, para todos estos conjuntos de datos de prueba, la media del valor predicho converge en torno a 62,6 (que casi se corresponde con la media del conjunto de datos de entrenamiento).

¿Está mi modelo sobreajustándose al conjunto de datos de entrenamiento y, en caso afirmativo, cómo puedo evitarlo?

Preguntado el 20 de Mayo, 2022 por Alexey Sh.

Answer 1

1 Respuestas

Answer 2

2voto

EdM Puntos 5716

En principio, el exceso de ajuste del conjunto de datos de prueba probablemente no sea su problema.

Para modelos lineales, Aprendizaje estadístico con dispersión (SLS) en la página 18:

De forma un tanto milagrosa, se puede demostrar que para el lazo, con un parámetro de penalización fijo $\lambda$ el número de coeficientes distintos de cero $k_{\lambda}$ es una estimación insesgada de los grados de libertad

Tu comentario indica que tenías 388 coeficientes distintos de cero para 2773 observaciones. Eso supone unas 7 observaciones por grado de libertad (df). Las reglas empíricas habituales para las regresiones lineales y los resultados continuos sugieren que puede evitar el sobreajuste si tiene entre 10 y 20 casos por df que utilice. Así que puede que haya cierto exceso de ajuste, pero no parece suficiente para explicar los resultados que describes en los datos de prueba.

Para comprobar el sobreajuste de los ajustes LASSO en los datos de entrenamiento, puede utilizar el bootstrap. SLS describe cómo utilizarlo adecuadamente para LASSO en la Sección 6.2. El sobreajuste del conjunto de entrenamiento puede evaluarse con la función optimismo bootstrap en el que se repite el proceso de modelado en múltiples muestras bootstrap y se evalúa la diferencia de rendimiento de cada modelo entre su muestra bootstrap y el conjunto de entrenamiento completo.

La regresión Ridge, que mantiene todos los predictores pero penaliza sus coeficientes, podría funcionar mucho mejor. LASSO puede funcionar bien cuando sólo un pequeño subconjunto de predictores están fuertemente asociados con el resultado y no hay otros predictores correlacionados con ellos. Sin embargo, si se trata de imágenes cerebrales o datos similares, sospecho que hay correlaciones masivas entre sus 2112 características y que cada una individualmente sólo tiene una pequeña asociación con el resultado. Pruebe la regresión de cresta y evalúe su rendimiento interno en el conjunto de entrenamiento como se sugirió anteriormente para LASSO.

Sospecho, sin embargo, que su problema tiene más que ver con sesgo de variable omitida ; de uno de sus comentarios:

los conjuntos de datos son comparables en cuanto a edad, sexo, etc., pero no en cuanto a la presencia de la enfermedad como tal.

En la regresión lineal, omitir un predictor que está correlacionado tanto con el resultado como con los predictores incluidos conducirá a una evaluación incorrecta de los coeficientes de regresión. Parece que la "presencia de la enfermedad como tal" tiene esas características y no está incluida en su modelo. En ese caso, sus resultados en los conjuntos de prueba podrían no ser tan sorprendentes.

Respondido el 21 de Mayo, 2022 por EdM (5716 Puntos )

¿La predicción de regresión Lasso en el conjunto de prueba predice hacia la media del conjunto de entrenamiento?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿La predicción de regresión Lasso en el conjunto de prueba predice hacia la media del conjunto de entrenamiento?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: