Estoy aplicando un bosque aleatorio algoritmo como un clasificador en un conjunto de datos de microarrays que se dividen en dos grupos conocidos con 1000 de características. Después de la ejecución inicial miro a la importancia de las características y ejecutar el algoritmo de árbol de nuevo con los 5, 10 y 20 características más importantes. Me parece que para todas las características, top 10 y 20 que el OOB estimación de la tasa de error es de 1.19%, donde como para el top 5 de las características del 0%. Esto parece contra-intuitivo para mí, así que me preguntaba si usted podría explicar si me falta algo o estoy usando mal la métrica.
Estoy usando el randomForest paquete en R con ntree=1000, nodesize=1 y mtry=sqrt(n)