En Gradiente Impulsado los Árboles de Regresión, un encogimiento νν se aplica a menudo como: ft(x)←ft−1(x)+νh(x)ft(x)←ft−1(x)+νh(x) donde hh es el árbol de regresión aprendido mediante el ajuste de los árboles para el gradiente. He probado la aplicación de este y se encontró que esta contracción es de hecho necesaria para evitar el sobreajuste. La contracción necesaria puede variar según la aplicación, pero me pareció que algo mayor que ν=0.01ν=0.01 led para el sobreajuste.
Hay una justificación teórica para este tipo de contracción? Hay más teóricamente sonido modos de regularizar GBRTs?