En este artículo, Simon Bernard propone un nuevo enfoque para la construcción de Bosque Aleatorio llamado Dynamic Random Forest. Soy nuevo en este tema, así que después de leer el artículo, tengo una duda en cuanto a que el algoritmo acerca de cómo se utiliza el peso. Para seguir la notación:
Deje $T=\{(x_1,y_1),\ldots,(x_N,y_N)\}$ el conjunto de entrenamiento. Creo que el algoritmo es como sigue para$l=1$$l=2$.
- $l=1$: Se obtiene una muestra de $N$ muestras de formación de$T$, de acuerdo a una distribución uniforme, y la denominamos $T_1$. A continuación, se obtiene una muestra de $N$ capacitación de las instancias de $T_1$ según $D_1$ (en este caso, también sería uniforme). Construimos el árbol y realizar el cálculo.
- $l=2$: Se obtiene una muestra de $N$ muestras de formación de$T$, de acuerdo a una distribución uniforme, y la denominamos $T_2$. A continuación, se obtiene una muestra de $N$ capacitación de las instancias de $T_2$ según $D_2$, que no es ya una distribución uniforme.
Ejemplo:
Deje $T=\{(x_1,y_1),\ldots,(x_5,y_5)\}$
$l=1$ $\longrightarrow$ $T_1=\{(x_2,y_2),(x_4,y_4),(x_2,y_2),(x_5,y_5),(x_4,y_4)\}$ y utilizamos para construir el árbol (el uso de $D_1$) $\{(x_4,y_4),(x_2,y_2),(x_2,y_2),(x_5,y_5),(x_2,y_2)\}$
$l=2$ $\longrightarrow$ $T_2=\{(x_3,y_3),(x_4,y_4),(x_1,y_1),(x_4,y_4),(x_3,y_3)\}$ y utilizamos para construir el árbol (de acuerdo a $D_2$) $\{(x_4,y_4),(x_1,y_1),(x_3,y_3),(x_3,y_3),(x_1,y_1)\}$
Preguntas:
¿He de entender el algoritmo correctamente?
Cuando haya terminado, si le damos el bosque de una nueva entrada de $x$, ¿cómo decidir su clase? Por el voto de la mayoría?
Artículo: Simon Bernard, Sébastien Adán, Laurent Heutte. Dinámica De Bosques Aleatorios. Patrón de Reconocimiento de Letras, Elsevier, 2012, 33 (12), pp 1580-1586.