He estado usando RFs por alrededor de un mes (sin experiencia previa). Lo que me he dado cuenta hasta ahora de que si sigo la configuración de un RF (número de árboles, de la función objetivo, las condiciones de división, etc) y vuelva a ejecutar en los mismos datos, obtengo resultados muy diferentes cada vez que lo hago: falsos positivos y verdaderos positivos varían de juicio a prueba un poco, lo cual es molesto porque quiero una estable, previsible resultado. Hay alguna forma de control? Intuitivamente aumento en el número del árbol debe tomar el cuidado del problema, pero no es así. Agradecería sugerencias sobre este.
Respuestas
¿Demasiados anuncios?Dos pensamientos.
RF son a menudo divididos hasta la pureza. A menudo, esto significa que hay muchos nodos terminales, cada uno con una sola observación. La final se divide precedieron a estos nodos no pueden generalizar muy bien porque hay tan pocas observaciones para trabajar con él en que la profundidad del árbol. Así que usted puede conseguir más generalizables árboles con menor fuera de la varianza de la muestra si se aumenta el mínimo nodo de tamaño de 1 a algo así como 10 o más (dependiendo de la cantidad de datos que tienen, es otro de hyper-parámetro, por lo que les convendría afinar). Esto también tiene la propiedad de rendimiento consistente estimaciones de la probabilidad, que puede ser deseable en algunos contextos.
Aumentar el número de árboles de reducir la varianza del estimador. Esta es una obvia consecuencia de uno de los Ct -- cada árbol es un binomio de prueba, y la predicción de los bosques es el promedio de muchos ensayos binomiales. Además, los árboles son iid en el sentido de que son todos caben en diferentes re-muestreos de los datos y aleatorios diferentes subconjuntos de características. Así que usted tiene iid binomial para esquí de fondo (que tiene varianza finita, ya que cada prueba es de 0 o 1, es decir, tiene cardinalidad finita). Esto puede hacer que las predicciones menos volátil, ya que los árboles sólo para explicar los trozos de sus datos, en lugar de cada observación. Así que cuatro veces el número de ensayos se corte el error estándar de la media en la mitad.
Hay extensa discusión de algunas de estas propiedades de RF en los Elementos de Aprendizaje Estadístico. La consistencia de la propiedad se discute en Malley JD, Kruppa J, Dasgupta Una, Malley KG, Ziegler A. Probabilidad de Máquinas: de acuerdo Probabilidad de Estimación Utilizando el test no paramétrico de Aprendizaje de Máquinas. Métodos de Información en Medicina. 2012;51(1):74-81. doi:10.3414/ME00-01-0052.
Finalmente, como observación general, la mejor regularizer más datos y mejores características que suele vencer a un algoritmo más inteligente.
Me refiero a más de una reducción de varianza, es decir, el resultado previsible. He aumentado el número de árboles, pero no ayuda.
Debido al teorema del límite central, y debido al hecho de Bosques Aleatorios predicciones se obtienen a través de promedios, aumentando el número de árboles que debe ayudar. El valor predeterminado en R
500L
, establezca este tan alto como usted puede apoyar (a menudo me he puesto a5000L
, dependiendo de los datos).La aleatoriedad en los Bosques Aleatorios provienen tanto de atributo de embolsado y bootstrap de la agregación. Usted también puede tratar de reducir la aleatoriedad de cualquiera de esos agregar.
La última, dependiendo de cómo muchas de las características y de cómo muchas de las muestras que tenga, podría simplemente debido a los datos, y ninguna cantidad de hyperparameter retoques va a resolver.
Usted mencionó en un comentario:
He probado unos cuantos, entre los 6 y los 400. Yo uso una regresión basada en función de selector que mantiene todas las funciones con el p-valor inferior a 0,05
Y, como he dicho, me encuentro a la selección de características inútiles en su mayoría con Bosques Aleatorios. Las razones son simples: se riesgo de sobreajuste haciendo que la selección y Bosques Aleatorios son buenos, con gran cantidad de funciones. Dejar que el bosque de decidir qué características son dignos, a menos que usted tiene órdenes de magnitud más características de las muestras, a continuación, hacer alguna pequeña reducción, sólo lo suficiente para eliminar el ruido de las características.