Tengo un conjunto de datos de unas 500 características y estoy entrenando un clasificador binario utilizando GBM (gradient boosted machines), un conjunto de árboles de decisión. De estas 500 variables, estoy seguro de que algunas están muy correlacionadas entre sí, aunque probablemente no hasta el punto de que sean linealmente dependientes. Por ejemplo, una variable podría ser la edad media de las personas en la ciudad X, que fue recogida por la encuesta 1, y otra variable es la edad media de las personas en la ciudad X recogida por la encuesta 2. ¿Cómo afecta un conjunto tan amplio de características a los árboles de decisión? En el ámbito de la regresión, esto debería aumentar la varianza de la predicción, pero también se puede mitigar mediante la regularización.
Respuesta
¿Demasiados anuncios?
Alan
Puntos
7273