En Gradiente Impulsado los Árboles de Regresión, un encogimiento $\nu$ se aplica a menudo como: $$ f_t(x) \leftarrow f_{t-1}(x) + \nu h(x)$$ donde $h$ es el árbol de regresión aprendido mediante el ajuste de los árboles para el gradiente. He probado la aplicación de este y se encontró que esta contracción es de hecho necesaria para evitar el sobreajuste. La contracción necesaria puede variar según la aplicación, pero me pareció que algo mayor que $\nu=0.01$ led para el sobreajuste.
Hay una justificación teórica para este tipo de contracción? Hay más teóricamente sonido modos de regularizar GBRTs?