Estoy haciendo un proyecto personal sobre regresión y espero que me puedan aconsejar sobre varios problemas. El conjunto de datos que tengo es sobre cocina, la forma es 180x9, y las 2 variables continuas son "prep_time" y "cook_time". Quiero predecir el cook_time en base a otras variables. He codificado en caliente otras variables categóricas y obtengo un total de ~30 características al final (y sólo prep_time es continua). Este es el conjunto de datos antes del procesamiento:
El modelo de referencia con regresión lineal, SVR y Random forest no funciona realmente bien (las puntuaciones absolutas de r2 son <0,1 para los 3 modelos). Pero cuando añadí una característica tiempo_total = tiempo_de_preparación+tiempo_de_cocción, y utilicé MinMaxscale en tiempo_de_preparación y tiempo_total, el modelo RF mejora hasta un r2 de ~0,3. Sin embargo, LinReg resulta en ~0 mse y 1.0 r2 en el prueba conjunto, sorprendentemente.
Por ello, intenté analizar más este modelo LR. Utilicé la función sklearn.feature_selection.SelectFromModel para obtener las características importantes de este modelo de regresión lineal, y muestra que sólo el prep_time y el total_time son importantes para el modelo. De hecho, el modelo entrenado utilizando sólo estas 2 variables funciona igual de bien. El VIF de estas 2 variables es de ~7,0, lo que implica multicolinealidad. Sin embargo, si elimino cualquiera de estas dos variables y entreno sólo con la otra característica, el modelo no funciona tan bien.
Mi pregunta es: ¿sigue siendo un buen modelo? W
Gracias.