Hice una división 70:30 de los datos para construir un modelo de bosque aleatorio para la clasificación binaria. Aunque la prevalencia de $Y=1$ era de aproximadamente el 25% tanto en los conjuntos de entrenamiento como en los de prueba, los dos conjuntos se desequilibraron mientras se construía el modelo y se hacían predicciones debido a la falta de covariables. Observé que el conjunto de entrenamiento "completo" tenía la mitad de $Y=1$ casos en comparación con el conjunto de pruebas "completo".
El AUC de los datos de entrenamiento fue de aproximadamente 0,70 y el AUC de los datos de prueba fue de aproximadamente 0,85.
¿Cómo debo explicarlo? Pensé que los datos de entrenamiento siempre mostrarían un AUC más alto que los datos de prueba porque utilizamos los datos de entrenamiento para construir nuestro modelo.