Estoy construyendo un bosque aleatorio en el modelo de R. Basado en mi investigación I (espero) han llegado con bastante comprensión acerca de cómo funcionan, y lo que es más importante cuando van a trabajar.
Simplemente me gustaría ver a mi comprensión de la RF de los modelos de la cruz validado por aquí.
Así que aquí vamos (¿verdadero o falso?):
- el escalado no es necesario en el Bosque Aleatorio modelos.
- cuando se trata con desequilibrio de datos, se podría reducir la resolución de un/upsample/usar pesas. En el paquete
randomForest
sin embargo, la opción classwt parece ser poco fiables? Por lo tanto, yo simplemente reducir la resolución de mis datos (50/50), utilizando el paquete de balance. En mi modelo final voy a reducir la resolución y construir el bosque de K veces y tomar el promedio de las predicciones. Es este sabio? - Bosques aleatorios pequeños problemas con una alta correlación de las variables. Yo tengo muchas ideas para nuevas características y quisiera incluir a todos a la vez y en función de la importancia (MeanDecreaseGini) opcionalmente puede decidir dejar algunas fuera. Pero la correlación entre los predictores no va a influir en el rendimiento? en otras palabras: el modelo con las características adicionales llevará a cabo al menos similares a los que tienen menos variables?