He entrenado una regresión de árbol potenciada con el siguiente código (fuera del caret
y gbm
paquetes:
fm <- target ~ .
bt.tune.grid <- expand.grid(
interaction.depth = seq(3, 7, by = 2),
n.trees = seq(500, 1000, by = 100),
shrinkage = c(0.01, 0.1),
n.minobsinnode = seq(6, 10, by = 2)
)
bt <- train(
fm,
method = "gbm",
data = train.data,
trControl=trainControl(method="cv",number=5),
tuneGrid = bt.tune.grid,
verbose = F,
distribution = "gaussian"
)
Esto seleccionará automáticamente un modelo con el menor RMSE en la validación cruzada. Al diagnosticar los residuos con
plot(bt$finalModel$fit, train.data$target-bt$finalModel$fit)
Obtengo residuos muy linealmente sesgados (véase más abajo)
Cualquier ayuda para diagnosticar esto sería muy apreciada.