Estoy aplicando machine learning (XGBoost) a cierto problema relativo a la clasificación de series temporales, como entrada utiliza unos valores numéricos en torno a 200 características y texto vectorizado (tfidf).
Los resultados que obtengo son un poco confusos: ROC AUC depende en gran medida de la forma en que se dividen los datos.
En caso de división aleatoria (probando diferentes semillas) los resultados están alrededor de AUC=0.70 (para el conjunto de validación). Sin embargo, si divido los datos de forma que representen periodos característicos de la serie temporal (por ejemplo, la serie temporal ascendente se divide en dos conjuntos, el de entrenamiento y el de validación; la descendente y la lateral son iguales y, a continuación, se fusionan los conjuntos respectivos), obtengo un AUC de 0,52 en el mejor de los casos.
¿Cuál puede ser la causa de este comportamiento? ¿Alguna idea?