El enfoque que usted ha propuesto es una de las estrategias comunes de selección de características llamadas Selección por pasos hacia delante . Puede ver el enlace para ver un resumen de ésta y otras técnicas. Le sugiero encarecidamente que compruebe otras técnicas como PCA, Lasso, etc. En cualquier caso, voy a resumir la selección de pasos hacia adelante:
En el primer paso de los análisis, reunimos todas las características posibles (incluyendo sus exponentes como x21 y las interacciones x1x2 ) que creemos que sería útil en la regresión. A continuación, elegimos un pequeño subconjunto entre este posible conjunto de características. Una aproximación bruta sería entrenar nuestro modelo con todos los subconjuntos de características posibles. Sin embargo, como se puede adivinar, esto es computacionalmente muy caro. En su lugar, preferimos encontrar un buen camino a través de ellos. La técnica de selección paso a paso lo consigue de forma iterativa. En primer lugar, se empieza con un modelo de una sola variable con una sola característica y un intercepto. Para esta variable, hay que probar todas las características (entrenar el modelo) que se han reunido. A continuación, se elige la de mejor rendimiento. En este caso, la métrica de rendimiento podría ser R2 , MSE o cualquier otra cosa (incluyendo AIC,BIC ). Sin embargo, no olvide hacer esto en un conjunto de datos aislado (conjunto de prueba) que no se utiliza en la fase de entrenamiento.
Una vez que elija esta "mejor" característica, amplíe su modelo a dos variables y pruebe todas las características restantes en su conjunto de características para esta nueva ranura de características. Puede repetir esta operación hasta llegar a un modelo decente que funcione lo suficientemente bien y que no mejore con la adición de más características.