Tengo un conjunto de datos con 1962 observaciones y 46 columnas. Columna 46 es el objetivo con 3 clases de 1, 2, 3. 6 de las demás columnas son las variables nominales y el resto son variables ordinales. He preprocesado de ellos utilizando la siguiente manera:
for (i in c(1:4,6,9,46)){
cw_alldata_known[,i] <- as.factor(cw_alldata_known[,i])
}
for (i in c(5,7,8,10:45)){
cw_alldata_known[,i] <- as.ordered(cw_alldata_known[,i])
}
Entonces yo dividen 50/50 en conjuntos de pruebas y entrenamiento.
He instalado un árbol de decisión usando party
paquete de R:
cw.ctree <- ctree(cr~.,data = cw.train)
Entonces yo también dispone de un bosque aleatorio modelo de uso de la randomForest
paquete de:
cw.forest <- randomForest(credit.rating ~ ., data=cw.train,ntree=107)
He probado otros ntree
valores 107 pero parece ser la mejor.
La exactitud en el conjunto de pruebas de árbol de decisión es de alrededor de 61%, mientras que el bosque aleatorio es sólo el 56%. He leído que random forest es a menudo más robusto y fiable. ¿Por qué no se desempeñan mejor que los árboles de decisión en este caso?