4 votos

Una pregunta acerca de la Dinámica de Bosque Aleatorio

En este artículo, Simon Bernard propone un nuevo enfoque para la construcción de Bosque Aleatorio llamado Dynamic Random Forest. Soy nuevo en este tema, así que después de leer el artículo, tengo una duda en cuanto a que el algoritmo acerca de cómo se utiliza el peso. Para seguir la notación:

Deje $T=\{(x_1,y_1),\ldots,(x_N,y_N)\}$ el conjunto de entrenamiento. Creo que el algoritmo es como sigue para$l=1$$l=2$.

  • $l=1$: Se obtiene una muestra de $N$ muestras de formación de$T$, de acuerdo a una distribución uniforme, y la denominamos $T_1$. A continuación, se obtiene una muestra de $N$ capacitación de las instancias de $T_1$ según $D_1$ (en este caso, también sería uniforme). Construimos el árbol y realizar el cálculo.
  • $l=2$: Se obtiene una muestra de $N$ muestras de formación de$T$, de acuerdo a una distribución uniforme, y la denominamos $T_2$. A continuación, se obtiene una muestra de $N$ capacitación de las instancias de $T_2$ según $D_2$, que no es ya una distribución uniforme.

Ejemplo:

Deje $T=\{(x_1,y_1),\ldots,(x_5,y_5)\}$

$l=1$ $\longrightarrow$ $T_1=\{(x_2,y_2),(x_4,y_4),(x_2,y_2),(x_5,y_5),(x_4,y_4)\}$ y utilizamos para construir el árbol (el uso de $D_1$) $\{(x_4,y_4),(x_2,y_2),(x_2,y_2),(x_5,y_5),(x_2,y_2)\}$

$l=2$ $\longrightarrow$ $T_2=\{(x_3,y_3),(x_4,y_4),(x_1,y_1),(x_4,y_4),(x_3,y_3)\}$ y utilizamos para construir el árbol (de acuerdo a $D_2$) $\{(x_4,y_4),(x_1,y_1),(x_3,y_3),(x_3,y_3),(x_1,y_1)\}$

Preguntas:

¿He de entender el algoritmo correctamente?

Cuando haya terminado, si le damos el bosque de una nueva entrada de $x$, ¿cómo decidir su clase? Por el voto de la mayoría?

Artículo: Simon Bernard, Sébastien Adán, Laurent Heutte. Dinámica De Bosques Aleatorios. Patrón de Reconocimiento de Letras, Elsevier, 2012, 33 (12), pp 1580-1586.

11voto

Chip Sprague Puntos 31

Incluso si han sido unos meses de haber hecho estas preguntas, todavía puedo dar algunas respuestas...

Con respecto a la hyperparameter $K$, en todas nuestras obras con DRF que sigue a la publicación de este trabajo, hemos utilizado siempre un completamente al azar, es decir, un valor elegido al azar de entre $1$$M$, con igualdad de probabilidades. Ha demostrado ser eficaz en una gran mayoría de los casos.

El proceso propuesto en el documento se basa en un trabajo anterior, que muestra que cuando hay un montón de características no pertinentes en el conjunto de datos, el valor tradicional de la $M^.5$ es una muy mala elección. En este caso, la selección de un valor al azar para cada uno de los nodos de los árboles nos permite superar este fenómeno. En todos los demás casos $M^.5$ es una buena opción.

Sobre el proceso de ponderación, tengo que admitir que podía haber sido mejor explicado. En cada paso (antes de que el crecimiento de un nuevo árbol en el bosque), la idea es: (i) evaluar para cada instancia de la proporción de árboles que han predicho la verdadera clase, pero considerando sólo los árboles para que la instancia de que se trate es un fuera de bolsa; y (ii) sustituir a la anterior pesos por las nuevas calculan a partir de este ratio.

Entonces, cuando los pesos se han calculado, se utilizan en dos partes del algoritmo de aprendizaje: (i) en la generación de las muestras bootstrap (un peso alto significa una alta probabilidad de ser seleccionado en el bootstrap de uso muestra de que el nuevo árbol) y (ii) en el cálculo del índice de gini.

Para combinar el árbol de las predicciones, se utiliza un voto de mayoría, como se hace en la mayoría de los de del bosque al azar métodos.

Por desgracia, yo no puedo dar estable de la aplicación de este algoritmo por ahora, pero tan pronto como lo he hecho correctamente re-escrito, tengo la intención de publicarlo en mi sitio web.

Siéntase libre de contactar conmigo si necesita más detalles.

4voto

Gracias por hacer de mí la lectura de este artículo :)

@Hice entender el algoritmo correctamente?

Cuando leí el artículo. DRF se desvía de RF de dos maneras. Primero, el número de elementos ensayados(llamado K) en cada nodo es seleccionado, ya sea: a) elegido al azar entre 1 a M características(M= número total de características) con la misma probabilidad, o b) K muestreo de una distribución normal con media=M^.5 y desviación estándar=M/50 [y, probablemente, algunos de redondeo de los números... y por qué 50?]. Por lo tanto, a) K es uniforme muestreada o b) K es a menudo algo cerca de defecto mtry=M^.5. Si a o b, se decidió en algunos ganancia de información criterios que no se describe muy bien. No se describe en su referencia artículo anterior (18) donde K siempre es elegida como una situación. Puede ser descrito en su tesis (17), pero lo que está escrito en francés, así que estoy perdido allí.

Ok, en segundo lugar DRF va a volver a evaluar total OOB-CV exactitud después de cada árbol capacitados. Después de bootstrap, aquellas muestras de ser inbag recibirán una ponderación de(D) inversamente proporcionales a OOB-CV exactitud de dicha muestra.

Se pregunta si esta ponderación(D) es implementado por "bootstrap " bootstrap" de acuerdo a esta weightng(D). Que efectivamente podría ser el mismo como por muestreo, de la que ya predijo ejemplos de formación. Creo que, esto no es lo que se conoce, aunque estoy de acuerdo en que no es muy clara. Creo que las ponderaciones se utiliza al calcular coeficiente de gini de la impureza, de tal manera que muy ponderado de las muestras de un mayor apalancamiento. Yo especular por muestreo y muestra "de peso" podría funcionar igual de bien. Porque "por muestreo" y "ejemplo de ponderación" a trabajo igual de bien para contrarrestar la clase desequilibrada de datos de entrenamiento, consulte este artículo.

@Cuando haya terminado, si le damos el bosque de una nueva entrada x, ¿cómo decidir su clase? Por el voto de la mayoría?

Así que iba a ser la predeterminada. Otro voto regímenes pueden ser utilizados como en cualquier otro bosque, ver, por ejemplo, esta respuesta. Básicamente el bosque de la izquierda después de la formación no es diferente de regular bosque aleatorio. Sólo el método de cómo divisiones se hicieron diferencia. xi va a ejecutar a través de todos los árboles y la terminal de predicciones será algún tipo de voto decida la clase.

Por último, el paradero de opinión. Impulsar el es un tigre de papel, fuerte pero frágil. Es probable que el extra de impulsar la superan(meassured CV) regular de RF o de la mtry elegido al azar en la aplicación. Si la verdadera estructura oculta, nuestro modelo han aprendido a replicar no es estática. Entonces, cuando el muestreo es totalmente nuevo conjunto de datos, este conjunto de datos representa una ligera modificación de la estructura, y para tales problemas clásicos de RF es probable que el rendimiento más estable predicciones. En el mejor de este impulso-embolsado híbrido DRF puede tener superaron este impulsar el talón de Aquiles.

Creo que DRF es difícil de reproducir de este artículo solo, porque el a-b criterio no está bien descrita y tampoco lo es el sistema de ponderación. Una implementación real debería haber sido presentado con el artículo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X