Processing math: 100%

4 votos

Diagnóstico de la inclinación lineal de los residuos en el árbol reforzado

He entrenado una regresión de árbol potenciada con el siguiente código (fuera del caret y gbm paquetes:

fm <- target ~ .

bt.tune.grid <- expand.grid(
  interaction.depth = seq(3, 7, by = 2),
  n.trees = seq(500, 1000, by = 100),
  shrinkage = c(0.01, 0.1),
  n.minobsinnode = seq(6, 10, by = 2)
)

bt <- train(
  fm,
  method = "gbm",
  data = train.data,
  trControl=trainControl(method="cv",number=5), 
  tuneGrid = bt.tune.grid,
  verbose = F,
  distribution = "gaussian"
)

Esto seleccionará automáticamente un modelo con el menor RMSE en la validación cruzada. Al diagnosticar los residuos con

plot(bt$finalModel$fit, train.data$target-bt$finalModel$fit)

Obtengo residuos muy linealmente sesgados (véase más abajo) residual plot

Cualquier ayuda para diagnosticar esto sería muy apreciada.

3voto

VarLogRant Puntos 284

Los árboles (y los conjuntos de árboles) tienden a no encajar en los extremos. Los nodos terminales suelen estimar la predicción utilizando la media de los puntos del conjunto de entrenamiento en el nodo terminal. Por ello, no pueden predecir muy bien los extremos de la variable de respuesta y tienden a retroceder a la media.

Sin embargo, su trama es un poco extrema comparada con otras que he visto.

Pruebe a utilizar cubista que hace algo parecido al boosting y ajusta modelos lineales en los nodos terminales. Esto puede mejorar la situación.

Max

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X