Tengo un ordenador de ciencias de fondo, pero estoy tratando de enseñar a mí mismo en ciencia de datos mediante la resolución de problemas en la red internet.
He estado trabajando en este problema para el último par de semanas (aprox 900 filas y 10 funciones). Yo estaba inicialmente mediante regresión logística, pero ahora me he cambiado a bosques aleatorios. Cuando ejecuto mi aleatoria bosque modelo en mis datos de entrenamiento que me pongo muy altos valores de auc (> 99%). Sin embargo, cuando ejecuto el mismo modelo en los datos de prueba los resultados no son tan buenos (Precisión de aproximadamente 77%). Esto me lleva a creer que yo soy más de ajuste de los datos de entrenamiento.
¿Cuáles son las mejores prácticas con respecto a la prevención de sobre adecuado en bosques aleatorios?
Estoy usando r y rstudio como mi entorno de desarrollo. Estoy usando el randomForest
paquete y han aceptado los valores predeterminados para todos los parámetros