Tomemos como ejemplo la función objetivo de la XGBOOST modelo en el $t$'th iteración:
$$\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t)$$
donde $\ell$ es la función de pérdida, $f_t$ $t$'th árbol de salida y $\Omega$ es la regularización. Uno de los (muchos) de los pasos clave para un rápido cálculo de la aproximación:
$$\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t),$$
donde $g_i$ $h_i$ son la primera y la segunda derivadas de la función de pérdida.
Lo que estoy pidiendo es convincentes argumentos para desmitificar la razón por la que el que la aproximación de las obras:
1) ¿Cómo XGBOOST con la anterior aproximación comparar a XGBOOST con la totalidad de la función objetivo? Lo que potencialmente interesantes, de orden superior, comportamiento que se pierde en la aproximación?
2) Es un poco difícil de visualizar (y depende de la función de pérdida), pero, si la función de pérdida tiene un gran cúbicos componente, entonces la aproximación probablemente fallará. ¿Cómo es que esto no causa problemas para XGBOOST?