1 votos

Efecto de las características altamente correlacionadas entre sí en un árbol de decisión

Tengo un conjunto de datos de unas 500 características y estoy entrenando un clasificador binario utilizando GBM (gradient boosted machines), un conjunto de árboles de decisión. De estas 500 variables, estoy seguro de que algunas están muy correlacionadas entre sí, aunque probablemente no hasta el punto de que sean linealmente dependientes. Por ejemplo, una variable podría ser la edad media de las personas en la ciudad X, que fue recogida por la encuesta 1, y otra variable es la edad media de las personas en la ciudad X recogida por la encuesta 2. ¿Cómo afecta un conjunto tan amplio de características a los árboles de decisión? En el ámbito de la regresión, esto debería aumentar la varianza de la predicción, pero también se puede mitigar mediante la regularización.

1voto

Alan Puntos 7273

Yo esperaría que si un árbol de decisión utilizara una de las variables altamente correlacionadas, entonces sería menos probable que utilizara la otra.

Así que en tu conjunto, quizá en algunos árboles se utilice uno y a veces el otro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X