Al igual que con los bosques aleatorios, hay diferentes formas de calcular la importancia de las características. En XGBoost, que es un paquete particular que implementa árboles de gradiente reforzado, ofrecen las siguientes formas de calcular la importancia de las características:
Cómo se calcula la importancia: "peso", "ganancia" o "cobertura"
- "peso" es el número de veces que una característica aparece en un árbol
- "ganancia" es la ganancia media de las divisiones que utilizan la característica
- "cover" es la cobertura media de las divisiones que utilizan la característica, donde la cobertura se define como el número de muestras afectadas por la división
(Fuente: https://xgboost.readthedocs.io/en/latest/python/python_api.html )
Ahora, la ganancia es básicamente la ganancia de información promediada sobre todos los árboles. Para ello, dado un nodo del árbol, primero se calcula la impureza del nodo padre, por ejemplo, utilizando Gini o la entropía como criterio. A continuación, se calculan las impurezas de los nodos hijos si se utiliza una característica determinada para la división. Por último, se calcula la ganancia de información restando las impurezas de los nodos hijos de la impureza del nodo padre. Avísame si necesitas más detalles al respecto.