2 votos

El AUC (y otras medidas) depende de la forma en que se dividen los datos

Estoy aplicando machine learning (XGBoost) a cierto problema relativo a la clasificación de series temporales, como entrada utiliza unos valores numéricos en torno a 200 características y texto vectorizado (tfidf).

Los resultados que obtengo son un poco confusos: ROC AUC depende en gran medida de la forma en que se dividen los datos.

En caso de división aleatoria (probando diferentes semillas) los resultados están alrededor de AUC=0.70 (para el conjunto de validación). Sin embargo, si divido los datos de forma que representen periodos característicos de la serie temporal (por ejemplo, la serie temporal ascendente se divide en dos conjuntos, el de entrenamiento y el de validación; la descendente y la lateral son iguales y, a continuación, se fusionan los conjuntos respectivos), obtengo un AUC de 0,52 en el mejor de los casos.

¿Cuál puede ser la causa de este comportamiento? ¿Alguna idea?

1voto

user777 Puntos 10934

No creo que ocurra nada especialmente destacable. Las estadísticas obtenidas a partir de divisiones entrenamiento-prueba están sujetas a variaciones aleatorias, como cualquier otra estadística. Si la variación es grande, es porque el proceso subyacente tiene una varianza alta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X