10 votos

Definición de la complejidad de un árbol en xgboost

Haciendo una investigación sobre la xgboost algoritmo fui a través de la documentación.

En este enfoque los árboles están regularizados mediante la complejidad de la definición de $$ \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 $$ donde $\gamma$ $\lambda$ son parámetros, $T$ es el número de la terminal de las hojas y $w_j$ es la puntuación en cada hoja.

Me pregunto: ¿cómo es que esto de definir la complejidad? $T$, el número de nodos terminales, parece natural para mí. Pero la suma de los puntajes finales cuadrado?

Tal vez el sobreajuste es decir. Lo que significa que muy grandes puntuaciones dar demasiada confianza? Es elegido para obtener una débil alumno? ¿Qué es una explicación natural para esta elección de la complejidad de la función?

8voto

eldering Puntos 3814

Esto tiene sentido para mí.

Me centraré en el caso Gaussiano. Aquí cada árbol $T_i$ es el ajuste en los residuos del modelo actual y el modelo de actualización es $M_{i+1} = M_{i} + \alpha T_i$. La idea de un gradiente de refuerzo es lenta y cuidadosamente reducir el sesgo del modelo mediante la adición de estos árboles uno por uno.

En este caso, un valor grande de $w_i$ correspondería a un terminal (hoja) nodo dando una muy grande e importante actualización para el modelo anterior. La idea de la regularización plazo es reducir al mínimo estos incidentes de grandes de un solo árbol de actualizaciones (sólo se permite si la disminución en el modelo de función de pérdida es lo suficientemente grande para compensar la penalización de regularización). Si dicha actualización está regularizada para un solo árbol, pero resulta ser justificada, será al horno en más de varias actualizaciones del modelo, de acuerdo con la filosofía de impulsar.

Esto es muy estrecha analogía con cresta de regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X