De hecho, estoy haciendo un experimento con esto ahora mismo. Trabajo en la clasificación de texto, por lo que mi conjunto de entrenamiento es típicamente del orden de varios cientos de miles de características, y estoy buscando en la comparación de un SVM lineal (optimizado para el parámetro c) contra la implementación de weka de bosques aleatorios. Estoy encontrando que, para mis datos, alrededor de 74 árboles, y 32 características, hasta ahora, parece dar un rendimiento bastante bueno. Por supuesto, el aumento de estos valores tiende a aumentar el AUC que observo, pero es en el lugar de milésimas de dígitos, en general. Todavía estoy tratando de entender cómo este algoritmo está manejando mis datos, pero sospecho, basado en la Papel Breiman En este sentido, cuanto más características de utilidad general haya en el conjunto de entrenamiento, menos importante será el parámetro del número de árboles. Si lees el artículo (y es un artículo muy bueno), cada árbol consiste en un muestreo aleatorio de las características de tus datos, así que, si hay muchas características útiles en tu conjunto, es más probable que encuentres algo útil en cualquier árbol en particular. Dicho esto, creo que siempre es una buena idea optimizar un algoritmo para los datos particulares. Para mis experimentos, he reservado un conjunto de entrenamiento/optimización en el que estoy realizando una validación cruzada con diferentes valores de parámetros. Me interesaría saber lo que encuentras.
0 votos
Las recomendaciones de Breinman son elegir un gran número de árboles, así como la raíz cuadrada del número de variables para m . Véase cwiki.apache.org/MAHOUT/bosques-aleatorios.html y springerlink.com/index/U0P06167N6173512.pdf
0 votos
Esto es algo que sé. Pero por otro lado, hay una sugerencia de que el parámetro mtry se puede ajustar utilizando menor número de árboles . Mi pregunta es si es posible utilizar un número menor de árboles para la selección de características mediante RFE. ¿O sugiere utilizar los mismos valores?