26 votos

¿Cuáles son las implicaciones de escalar las funciones a xgboost?

Investigando sobre el algoritmo xgboost pasé por el documentación .

He oído que xgboost no se preocupa mucho por la escala de las características de entrada

En este enfoque, los árboles se regularizan utilizando la definición de complejidad $$ \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 $$ donde $\gamma$ y $\lambda$ son parámetros, $T$ es el número de hojas terminales y $w_j$ es la puntuación en cada hoja.

Entonces, ¿no es importante escalar las características antes de introducirlas en xgboost? $\sum_{j=1}^T w_j^2$ en la parte de regularización de la función de costes depende directamente de la escala de las características

38voto

user777 Puntos 10934

XGBoost no es sensible a las transformaciones monotónicas de sus características por la misma razón que los árboles de decisión y los bosques aleatorios: el modelo sólo necesita elegir "puntos de corte" en las características para dividir un nodo. Las divisiones no son sensibles a las transformaciones monotónicas: la definición de una división en una escala tiene su correspondiente división en la escala transformada.

Tu confusión proviene de un malentendido $w$ . En la sección " Complejidad del modelo escribe el autor

Aquí $w$ es el vector de puntuaciones de las hojas...

La puntuación mide el peso de la hoja. Véase el diagrama en la sección " Conjunto de árboles "; el autor etiqueta el número que aparece debajo de la hoja como "puntuación".

score diagram

La puntuación también se define con mayor precisión en el párrafo anterior a su expresión para $\Omega(f)$ :

Debemos definir la complejidad del árbol $\Omega(f)$ . Para ello, afinemos primero la definición del árbol $f(x)$ como $$f_t(x)=w_{q(x)}, w \in R^T, q:R^d \to {1,2,\dots,T}.$$ Aquí $w$ es el vector de puntuaciones de las hojas, $q$ es una función que asigna cada punto de datos a la hoja correspondiente, y $T$ es el número de hojas.

Lo que esta expresión quiere decir es que $q$ es una función de partición de $R^d$ y $w$ es el peso asociado a cada partición. Partición $R^d$ puede hacerse con divisiones alineadas por coordenadas, y las divisiones alineadas por coordenadas son árboles de decisión.

El significado de $w$ es que se trata de un "peso" elegido para que la pérdida del conjunto con el nuevo árbol es inferior a la pérdida del conjunto sin el nuevo árbol. Esto se describe en " La puntuación de la estructura "de la documentación. La puntuación de una hoja $j$ viene dado por

$$ w_j^* = \frac{G_j}{H_j + \lambda} $$

donde $G_j$ y $H_j$ son las sumas de funciones de las derivadas parciales de la función de pérdida respecto a la predicción para el árbol $t-1$ para las muestras del $j$ (Véase " Formación aditiva " para más detalles).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X