¿Ayuda la selección de características a mejorar el rendimiento del aprendizaje automático?

Question

¿Ayuda la selección de características a mejorar el rendimiento del aprendizaje automático?

Preguntado el 26 de Febrero, 2017: Cuando se hizo la pregunta
10401 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Por ejemplo, supongamos que tengo un conjunto de datos n>>p, ¿sirve de algo seleccionar la variable importante antes de ajustar un modelo XGBoost?

Preguntado el 26 de Febrero, 2017 por Rusty

Answer 1

1 Respuestas

Answer 2

16voto

ayerhs7 Puntos 23

No debería tener ninguna variable que considere que no influye en absoluto en la variable dependiente, es decir, tener sólo un gran conjunto de variables sobre las que tenga una hipótesis de impacto en la variable dependiente; no querría que su modelo aprendiera el ruido de las variables que no tienen ningún sentido lógico al formar parte del espacio de las variables independientes pero que tienen correlaciones espurias con otras variables. Pero, aparte de estas exclusiones obvias, la cuestión es cómo saber qué características/variables son importantes y cuáles no. Es posible que piense que una determinada variable no tiene mucha importancia, pero cuando realmente ajuste un modelo, puede resultar que tenga un poder discriminatorio mucho mayor del que pensaba.

En los métodos de conjuntos basados en árboles, como el XGBoost, cada variable se evalúa como una variable potencial de división, lo que los hace robustos a las variables no importantes/irrelevantes, porque tales variables que no pueden discriminar entre eventos/no eventos no serán seleccionadas como la variable de división y, por lo tanto, también estarán muy bajas en el gráfico de importancia var. Sin embargo, una advertencia aquí es que si tiene dos (o más) variables altamente correlacionadas, la importancia que obtiene para éstas puede no ser indicativa de su importancia real (aunque incluso esto no afecta al rendimiento predictivo de su modelo). Por lo tanto, puede dejar todas sus características y ejecutar unas cuantas iteraciones para ver lo importantes o no que son y las que se encuentran constantemente en la parte inferior de la tabla var imp pueden ser excluidas de las ejecuciones posteriores para mejorar el rendimiento computacional.

Respondido el 26 de Febrero, 2017 por ayerhs7 (23 Puntos )

¿Ayuda la selección de características a mejorar el rendimiento del aprendizaje automático?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Ayuda la selección de características a mejorar el rendimiento del aprendizaje automático?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: