Dave ha respondido a tu pregunta concreta y te sugiero que aceptes esa respuesta. El punto sobre el "rendimiento inesperado" en el aprendizaje automático da en el clavo.
Lo que sigue a continuación es más bien para que te orientes hacia mejores formas de manejar tu conjunto de datos en particular.
Primero, no hagas un reparto prueba/entrenamiento con tan pocos casos. Construye tu modelo en todo el conjunto de datos, luego valida el proceso de creación de modelos por remuestreo. Un método aceptado consiste en repetir la modelización en múltiples remuestreos bootstrap de los datos y, a continuación, probar el rendimiento de los modelos resultantes en el conjunto completo de datos originales.
En segundo lugar, LASSO o la red elástica podrían no ser una buena opción en este caso. Parece que tiene muchos predictores categóricos multinivel y al menos una interacción. LASSO y la red elástica no mantendrán necesariamente todos los niveles de un predictor categórico en el modelo, y podrían mantener un término de interacción omitiendo los contribuyentes individuales a la interacción. Esto no suele ser una buena idea; véase este hilo . Existe un grupo LASSO, explicado en Aprendizaje estadístico con dispersión que puede mantener juntos los predictores especificados, pero supongo que su conjunto de datos será demasiado pequeño para que funcione adecuadamente.
En tercer lugar, sus numerosos predictores categóricos, algunos de ellos multinivel, plantean un problema particular para los enfoques penalizados como LASSO o la red elástica. En estos modelos, los predictores continuos suelen normalizarse a media cero y desviación típica unitaria, de modo que todos parten de escalas similares. En no siempre tiene sentido con predictores categóricos con un predictor multinivel, los resultados pueden variar en función del nivel de referencia elegido. Véase este hilo . Lanzarse a la penalización sin pensar detenidamente en los predictores categóricos es una forma demasiado fácil de meterse en un buen lío.
Antes de seguir adelante con la mecánica de la modelización, compruebe si puede utilizar sus conocimientos sobre el tema para reducir el número de predictores o combinar varios predictores en uno solo sin examinar primero sus asociaciones con el resultado. Frank Harrell notas del curso proporcionan mucha orientación útil para dicha simplificación de los predictores y otros aspectos de la modelización multivariable en el capítulo 4.
Sospecho que obtendrá los resultados más fiables empezando con esas combinaciones de predictores y penalizando de forma que se mantengan todos esos predictores (combinados) en el modelo y se evite la inestable selección de predictores que se obtiene con LASSO. La regresión Ridge es una opción, pero una estimación penalizada más general, ajustando la penalización relativa entre los predictores basándose en el conocimiento previo de la materia y manejando los predictores categóricos de forma inteligente, probablemente funcionará mejor.