Estoy trabajando en un gran conjunto de datos que tiene 25 características con 237862 filas. Estoy tratando de predecir el retorno . 1 es para el retorno y 0 para la no devolución. Mi conjunto de datos tiene el 12% de los datos que regresaron. Así que la clase de desequilibrio altamente. Y por eso no estoy prediciendo el retorno muy bien. He probado el muestreo ascendente, el muestreo descendente, SMOTE y ROSE, pero no he mejorado la precisión ni el recuerdo. También si muestro mis datos y luego los divido en un conjunto de entrenamiento y validación, entonces predice mejor, pero si muestro sólo el conjunto de entrenamiento y predigo en el conjunto de validación original, no predice bien.
modelos utilizados: Naive Bayes, Ranger, XGboost los datos tienen la mayoría de las características de los factores. sólo 1 entero. por favor, ayuda cómo hacer un mejor modelo.