7 votos

Lista de verificación de bosque aleatorio

Estoy construyendo un bosque aleatorio en el modelo de R. Basado en mi investigación I (espero) han llegado con bastante comprensión acerca de cómo funcionan, y lo que es más importante cuando van a trabajar.

Simplemente me gustaría ver a mi comprensión de la RF de los modelos de la cruz validado por aquí.

Así que aquí vamos (¿verdadero o falso?):

  • el escalado no es necesario en el Bosque Aleatorio modelos.
  • cuando se trata con desequilibrio de datos, se podría reducir la resolución de un/upsample/usar pesas. En el paquete randomForest sin embargo, la opción classwt parece ser poco fiables? Por lo tanto, yo simplemente reducir la resolución de mis datos (50/50), utilizando el paquete de balance. En mi modelo final voy a reducir la resolución y construir el bosque de K veces y tomar el promedio de las predicciones. Es este sabio?
  • Bosques aleatorios pequeños problemas con una alta correlación de las variables. Yo tengo muchas ideas para nuevas características y quisiera incluir a todos a la vez y en función de la importancia (MeanDecreaseGini) opcionalmente puede decidir dejar algunas fuera. Pero la correlación entre los predictores no va a influir en el rendimiento? en otras palabras: el modelo con las características adicionales llevará a cabo al menos similares a los que tienen menos variables?

4voto

ESRogs Puntos 1381
  1. El escalado no es necesaria; RF formación es invariante para todas las combinaciones de transformaciones monotónicas de predictores.
  2. classwt no es confiable; RF y desequilibrada de datos es una larga historia, prueba a navegar por el sitio o pedir a un más detallado de la cuestión.
  3. RF no debería tener problemas con la correlación de los predictores (siempre que tengas suficiente de árboles). La optimización del modelo mediante la eliminación de las variables con menor DecreaseGini puede ser inestable y por lo tanto bastante complicado -- recuerde que usted necesita para hacer la validación cruzada y una adecuada prueba para detectar un efecto significativo de una variable en un modelo de desempeño, medidas de la importancia de que ellos solos no son suficientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X