Estoy explorando diferentes métodos de clasificación de un proyecto en el que estoy trabajando, y estoy interesado en probar Bosques Aleatorios. Estoy tratando de educar a mí mismo como yo ir a lo largo, y agradecería cualquier ayuda proporcionada por el CV de la comunidad.
He dividido mis datos en el entrenamiento/prueba. A partir de la experimentación con bosques aleatorios en R (utilizando el randomForest paquete), he estado teniendo problemas con una alta tasa de error en la clasificación de mi más pequeños de la clase. He leído este documento en relación con el rendimiento de los bosques aleatorios en desequilibrio de datos, y los autores presentan dos métodos con el trato con la clase de desequilibrio cuando el uso de bosques aleatorios.
1. Ponderado De Los Bosques Aleatorios
2. Equilibrada Bosques Aleatorios
El paquete de R no permite la ponderación de las clases (a partir de la R foros de ayuda, he leído el classwt parámetro no está funcionando correctamente y está programada como una futura corrección de error), así que me quedo con la opción 2. Soy capaz de especificar el número de objetos que se tomaron muestras de cada clase para cada iteración del bosque aleatorio.
Me siento incómodo acerca de la configuración de la igualdad de tamaños de muestra para los bosques aleatorios, como siento que sería perder demasiada información acerca de la clase más grande que conduce a un rendimiento deficiente con datos del futuro. La mala clasificación de las tasas cuando la reducción de tamaño de la clase más grande que ha demostrado mejorar, pero me preguntaba si hay otras maneras de lidiar con el desequilibrio en el tamaño de las clases en bosques aleatorios?