4 votos

XGBoost - ¿Pesos en árbol de clasificación 0 o 1?

He leído el artículo sobre el algoritmo XGBoost y una cosa no me queda del todo clara. El término de regularización está definido de la siguiente manera donde $w_{j}$ corresponde al peso en el nodo final $j$. Para el caso de regresión esto sería el valor predicho en el nodo final y para el caso de clasificación sería un $0$ o un $1, supongo. Entonces, el término de regularización me parece intuitivo en el caso de regresión para penalizar predicciones grandes, sin embargo, en el caso de clasificación no agregaría mucho ya que los $w_{j}$ siempre serán un $0$ o un $1, ¿verdad?

Introducir descripción de la imagen aquí

4voto

Pitto Puntos 958

XGBoost no produce un árbol/árboles de decisión con valores de nodo hoja de 0 o 1.

En su lugar, utiliza múltiples árboles de regresión con valores continuos de "pesos" en sus nodos hoja, por ejemplo, en el rango 0 ~ 1. Por lo tanto, la regularización se aplica de la misma manera que para funciones de pérdida de regresión similares.

El algoritmo de aumento de árboles aplica los árboles de manera aditiva, es decir, suma los pesos de todos los árboles para llegar al valor final para la entrada dada.

Este "puntaje" de valor continuo debe ser interpretado por usted como una etiqueta de clase aplicando un punto de corte, por ejemplo, clase predicha = 1 si $\hat y > 0.5 $, si el punto de corte es 0.5.

2voto

Newton Puntos 97

Para la clasificación:

Diferente de un árbol de decisiones para un bosque aleatorio donde puedes usar la mayoría de la clase en el código de la hoja como la clase para una observación, los árboles de impulso son totalmente diferentes. En el método de impulso, tienes una función de pérdida como

$$ l(y_i,\hat{y_i})=y_i ln(1+e^{-\hat{y_i}}) + (1-y_i) ln(1+e^{\hat{y_i}}) $$

mientras que $y_i$ es de tus datos de entrenamiento, $\hat{y_i}$ es de tus árboles de impulso y es igual a la suma de los pesos de las hojas. Si tienes 10 aprendices débiles (10 árboles pequeños) para tu impulso, entonces tendrás 10 pesos ($w$) para sumar sobre un X dado. Las observaciones con 1 deberían tener un $\hat{y_i}$ más grande. Pero aparte de esto, no hay un significado físico en $\hat{y_i}$.

Queremos penalizar por la suma de los cuadrados de los $w$ para hacer cumplir que cada árbol no añada nada sustancial a la estimación, lo que coincide con la idea de que cada árbol solo sirve como un aprendiz más débil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X