En principio, el exceso de ajuste del conjunto de datos de prueba probablemente no sea su problema.
Para modelos lineales, Aprendizaje estadístico con dispersión (SLS) en la página 18:
De forma un tanto milagrosa, se puede demostrar que para el lazo, con un parámetro de penalización fijo $\lambda$ el número de coeficientes distintos de cero $k_{\lambda}$ es una estimación insesgada de los grados de libertad
Tu comentario indica que tenías 388 coeficientes distintos de cero para 2773 observaciones. Eso supone unas 7 observaciones por grado de libertad (df). Las reglas empíricas habituales para las regresiones lineales y los resultados continuos sugieren que puede evitar el sobreajuste si tiene entre 10 y 20 casos por df que utilice. Así que puede que haya cierto exceso de ajuste, pero no parece suficiente para explicar los resultados que describes en los datos de prueba.
Para comprobar el sobreajuste de los ajustes LASSO en los datos de entrenamiento, puede utilizar el bootstrap. SLS describe cómo utilizarlo adecuadamente para LASSO en la Sección 6.2. El sobreajuste del conjunto de entrenamiento puede evaluarse con la función optimismo bootstrap en el que se repite el proceso de modelado en múltiples muestras bootstrap y se evalúa la diferencia de rendimiento de cada modelo entre su muestra bootstrap y el conjunto de entrenamiento completo.
La regresión Ridge, que mantiene todos los predictores pero penaliza sus coeficientes, podría funcionar mucho mejor. LASSO puede funcionar bien cuando sólo un pequeño subconjunto de predictores están fuertemente asociados con el resultado y no hay otros predictores correlacionados con ellos. Sin embargo, si se trata de imágenes cerebrales o datos similares, sospecho que hay correlaciones masivas entre sus 2112 características y que cada una individualmente sólo tiene una pequeña asociación con el resultado. Pruebe la regresión de cresta y evalúe su rendimiento interno en el conjunto de entrenamiento como se sugirió anteriormente para LASSO.
Sospecho, sin embargo, que su problema tiene más que ver con sesgo de variable omitida ; de uno de sus comentarios:
los conjuntos de datos son comparables en cuanto a edad, sexo, etc., pero no en cuanto a la presencia de la enfermedad como tal.
En la regresión lineal, omitir un predictor que está correlacionado tanto con el resultado como con los predictores incluidos conducirá a una evaluación incorrecta de los coeficientes de regresión. Parece que la "presencia de la enfermedad como tal" tiene esas características y no está incluida en su modelo. En ese caso, sus resultados en los conjuntos de prueba podrían no ser tan sorprendentes.