División de datos de series temporales en trenes / pruebas / conjuntos de validación

Question

División de datos de series temporales en trenes / pruebas / conjuntos de validación

Preguntado el 18 de Mayo, 2018: Cuando se hizo la pregunta
169 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Cuál es la mejor manera de dividir los datos de series de tiempo en conjuntos de tren / prueba / validación, donde el conjunto de validación se usaría para el ajuste del hiperparámetro?

Tenemos datos de ventas diarias de 3 años, y nuestro plan es utilizar 2015-2016 como datos de capacitación, luego muestrear al azar 10 semanas de los datos de 2017 para usarlos como conjunto de validación, y otras 10 semanas de datos de 2017 para el conjunto de prueba. Luego, realizaremos una caminata hacia adelante en cada uno de los días en el conjunto de prueba y validación.

Preguntado el 18 de Mayo, 2018 por Thijs

Answer 1

2 Respuestas

Answer 2

25voto

wind Puntos 118

Debe usar una división basada en el tiempo para evitar el sesgo anticipado. Tren / validación / prueba en este orden por tiempo.

El conjunto de prueba debe ser la parte más reciente de los datos. Necesita simular una situación en un entorno de producción, donde después de entrenar un modelo, evalúa los datos que vienen después de la creación del modelo. El muestreo aleatorio que utiliza para la validación y el entrenamiento no es una buena idea.

Respondido el 18 de Mayo, 2018 por wind (118 Puntos )

Answer 3

8voto

brooklynsweb Puntos 101

En lugar de crear un solo conjunto de entrenamiento/conjunto de validación, podría crear más de estos conjuntos.

El primer conjunto de entrenamiento podría ser, es decir, 6 meses de datos (primer semestre de 2015) y el conjunto de validación, entonces serían los próximos tres meses (julio-Agosto 2015). El segundo conjunto de entrenamiento podría ser una combinación de la primera formación y el conjunto de validación. El conjunto de validación es, a continuación, los próximos tres meses (Septiembre-Octubre 2015). Y así sucesivamente.

Esta es una variación de K-Fold cross-validation, donde los conjuntos de entrenamiento son una combinación de la formación previa y el conjunto de validación.

Respondido el 18 de Mayo, 2018 por brooklynsweb (101 Puntos )

División de datos de series temporales en trenes / pruebas / conjuntos de validación

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

División de datos de series temporales en trenes / pruebas / conjuntos de validación

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: