La idea principal es la de embolsado de procedimiento, no por lo que los árboles al azar. En detalle, cada árbol es construido sobre una muestra de los objetos dibujados con el reemplazo de la serie original; así, cada árbol tiene algunos objetos que no la ha visto, que es lo que hace que todo el conjunto más heterogéneo, lo mejor en la generalización.
Además, los árboles están siendo debilitado de tal manera que en cada una de dividir solo M (o mtry
) seleccionados al azar atributos son considerados; M es generalmente una raíz cuadrada del número de atributos en el conjunto. Esto asegura que los árboles son overfitted menos, ya que no se podan. Usted puede encontrar más detalles aquí.
Por otro lado, existe una variante de RF de la llamada Extrema Bosque Aleatorio, en el que los árboles están hechos de una manera aleatoria (no hay optimización de divisiones) -- consultar, creo que esta referencia.