He utilizado cforest y randomForest para un 300 filas y 9 columnas del conjunto de datos y recibió buenas (casi overfitted - error igual a cero) resultados para randomForest y grandes errores de predicción para cforest de los clasificadores. ¿Cuál es la principal diferencia entre estos dos procedimientos?
Tengo que admitir que para cforest he utilizado cualquier posible entrada de los parámetros de combinación por ejemplo, la mejor, pero todavía con grandes errores en la clasificación, fue cforest_control(savesplitstats = TRUE, ntree=100, mtry=8, mincriterion=0, maxdepth=400, maxsurrogate = 1)
.
Por muy grandes conjuntos de datos (alrededor de 10000 filas y 192 columnas) randomForest y cforest tienen casi los mismos errores (el primero, un poco mejor en el mismo nivel radial núcleo svms), pero para el mencionado pequeña para mi sorpresa no hay manera de mejorar cforest la exactitud de la predicción...