26 votos

División de datos de series temporales en trenes / pruebas / conjuntos de validación

¿Cuál es la mejor manera de dividir los datos de series de tiempo en conjuntos de tren / prueba / validación, donde el conjunto de validación se usaría para el ajuste del hiperparámetro?

Tenemos datos de ventas diarias de 3 años, y nuestro plan es utilizar 2015-2016 como datos de capacitación, luego muestrear al azar 10 semanas de los datos de 2017 para usarlos como conjunto de validación, y otras 10 semanas de datos de 2017 para el conjunto de prueba. Luego, realizaremos una caminata hacia adelante en cada uno de los días en el conjunto de prueba y validación.

25voto

wind Puntos 118

Debe usar una división basada en el tiempo para evitar el sesgo anticipado. Tren / validación / prueba en este orden por tiempo.

El conjunto de prueba debe ser la parte más reciente de los datos. Necesita simular una situación en un entorno de producción, donde después de entrenar un modelo, evalúa los datos que vienen después de la creación del modelo. El muestreo aleatorio que utiliza para la validación y el entrenamiento no es una buena idea.

8voto

brooklynsweb Puntos 101

En lugar de crear un solo conjunto de entrenamiento/conjunto de validación, podría crear más de estos conjuntos.

El primer conjunto de entrenamiento podría ser, es decir, 6 meses de datos (primer semestre de 2015) y el conjunto de validación, entonces serían los próximos tres meses (julio-Agosto 2015). El segundo conjunto de entrenamiento podría ser una combinación de la primera formación y el conjunto de validación. El conjunto de validación es, a continuación, los próximos tres meses (Septiembre-Octubre 2015). Y así sucesivamente.

Esta es una variación de K-Fold cross-validation, donde los conjuntos de entrenamiento son una combinación de la formación previa y el conjunto de validación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X