2 votos

¿La predicción de regresión Lasso en el conjunto de prueba predice hacia la media del conjunto de entrenamiento?

Estoy utilizando la regresión lasso para predecir la edad (datos continuos) a partir de un conjunto que tiene 2112 características numéricas (variable independiente).

El conjunto de datos de formación contiene unos 2773 participantes. La media de la variable de resultado de ese conjunto de datos es de 62,6 y la media de la edad predicha es también de 62,4 aproximadamente. He utilizado gridsearchCV para el ajuste de hiperparámetros.

Estoy utilizando este modelo entrenado en varios conjuntos de datos de prueba. Las medias de la variable de resultado del conjunto de datos de prueba oscilan entre 61,6 y 68,87 aproximadamente.

Sin embargo, para todos estos conjuntos de datos de prueba, la media del valor predicho converge en torno a 62,6 (que casi se corresponde con la media del conjunto de datos de entrenamiento).

¿Está mi modelo sobreajustándose al conjunto de datos de entrenamiento y, en caso afirmativo, cómo puedo evitarlo?

2voto

EdM Puntos 5716

En principio, el exceso de ajuste del conjunto de datos de prueba probablemente no sea su problema.

Para modelos lineales, Aprendizaje estadístico con dispersión (SLS) en la página 18:

De forma un tanto milagrosa, se puede demostrar que para el lazo, con un parámetro de penalización fijo $\lambda$ el número de coeficientes distintos de cero $k_{\lambda}$ es una estimación insesgada de los grados de libertad

Tu comentario indica que tenías 388 coeficientes distintos de cero para 2773 observaciones. Eso supone unas 7 observaciones por grado de libertad (df). Las reglas empíricas habituales para las regresiones lineales y los resultados continuos sugieren que puede evitar el sobreajuste si tiene entre 10 y 20 casos por df que utilice. Así que puede que haya cierto exceso de ajuste, pero no parece suficiente para explicar los resultados que describes en los datos de prueba.

Para comprobar el sobreajuste de los ajustes LASSO en los datos de entrenamiento, puede utilizar el bootstrap. SLS describe cómo utilizarlo adecuadamente para LASSO en la Sección 6.2. El sobreajuste del conjunto de entrenamiento puede evaluarse con la función optimismo bootstrap en el que se repite el proceso de modelado en múltiples muestras bootstrap y se evalúa la diferencia de rendimiento de cada modelo entre su muestra bootstrap y el conjunto de entrenamiento completo.

La regresión Ridge, que mantiene todos los predictores pero penaliza sus coeficientes, podría funcionar mucho mejor. LASSO puede funcionar bien cuando sólo un pequeño subconjunto de predictores están fuertemente asociados con el resultado y no hay otros predictores correlacionados con ellos. Sin embargo, si se trata de imágenes cerebrales o datos similares, sospecho que hay correlaciones masivas entre sus 2112 características y que cada una individualmente sólo tiene una pequeña asociación con el resultado. Pruebe la regresión de cresta y evalúe su rendimiento interno en el conjunto de entrenamiento como se sugirió anteriormente para LASSO.

Sospecho, sin embargo, que su problema tiene más que ver con sesgo de variable omitida ; de uno de sus comentarios:

los conjuntos de datos son comparables en cuanto a edad, sexo, etc., pero no en cuanto a la presencia de la enfermedad como tal.

En la regresión lineal, omitir un predictor que está correlacionado tanto con el resultado como con los predictores incluidos conducirá a una evaluación incorrecta de los coeficientes de regresión. Parece que la "presencia de la enfermedad como tal" tiene esas características y no está incluida en su modelo. En ese caso, sus resultados en los conjuntos de prueba podrían no ser tan sorprendentes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X