Processing math: 100%

7 votos

cforest y randomForest clasificación del error de predicción

He utilizado cforest y randomForest para un 300 filas y 9 columnas del conjunto de datos y recibió buenas (casi overfitted - error igual a cero) resultados para randomForest y grandes errores de predicción para cforest de los clasificadores. ¿Cuál es la principal diferencia entre estos dos procedimientos?

Tengo que admitir que para cforest he utilizado cualquier posible entrada de los parámetros de combinación por ejemplo, la mejor, pero todavía con grandes errores en la clasificación, fue cforest_control(savesplitstats = TRUE, ntree=100, mtry=8, mincriterion=0, maxdepth=400, maxsurrogate = 1).

Por muy grandes conjuntos de datos (alrededor de 10000 filas y 192 columnas) randomForest y cforest tienen casi los mismos errores (el primero, un poco mejor en el mismo nivel radial núcleo svms), pero para el mencionado pequeña para mi sorpresa no hay manera de mejorar cforest la exactitud de la predicción...

1voto

manimal Puntos 68

Podría ser su valor para la mtry parámetro en cforest? Con ella 8, estás usando el embolsado. Conjunto a mtry=3 y ver cómo se compara con el algoritmo randomForest

0voto

mat_jack1 Puntos 209

Hay diferencias en las implementaciones de randomForest y cforest, principalmente en cómo las predicciones son calculados a partir de los bosques. Las diferencias se discuten en http://www.jstatsoft.org/v50/i11/paper que proporciona un marco para la comparación de los errores en la supervivencia de los bosques.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X