¿Ayuda la selección de características a mejorar el rendimiento del aprendizaje automático?
Por ejemplo, supongamos que tengo un conjunto de datos n>>p, ¿sirve de algo seleccionar la variable importante antes de ajustar un modelo XGBoost?
¿Ayuda la selección de características a mejorar el rendimiento del aprendizaje automático?
Por ejemplo, supongamos que tengo un conjunto de datos n>>p, ¿sirve de algo seleccionar la variable importante antes de ajustar un modelo XGBoost?
No debería tener ninguna variable que considere que no influye en absoluto en la variable dependiente, es decir, tener sólo un gran conjunto de variables sobre las que tenga una hipótesis de impacto en la variable dependiente; no querría que su modelo aprendiera el ruido de las variables que no tienen ningún sentido lógico al formar parte del espacio de las variables independientes pero que tienen correlaciones espurias con otras variables. Pero, aparte de estas exclusiones obvias, la cuestión es cómo saber qué características/variables son importantes y cuáles no. Es posible que piense que una determinada variable no tiene mucha importancia, pero cuando realmente ajuste un modelo, puede resultar que tenga un poder discriminatorio mucho mayor del que pensaba.
En los métodos de conjuntos basados en árboles, como el XGBoost, cada variable se evalúa como una variable potencial de división, lo que los hace robustos a las variables no importantes/irrelevantes, porque tales variables que no pueden discriminar entre eventos/no eventos no serán seleccionadas como la variable de división y, por lo tanto, también estarán muy bajas en el gráfico de importancia var. Sin embargo, una advertencia aquí es que si tiene dos (o más) variables altamente correlacionadas, la importancia que obtiene para éstas puede no ser indicativa de su importancia real (aunque incluso esto no afecta al rendimiento predictivo de su modelo). Por lo tanto, puede dejar todas sus características y ejecutar unas cuantas iteraciones para ver lo importantes o no que son y las que se encuentran constantemente en la parte inferior de la tabla var imp pueden ser excluidas de las ejecuciones posteriores para mejorar el rendimiento computacional.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.