Estoy entrenando una red neuronal con datos financieros dependientes del tiempo. Con el fin de evitar el sobreajuste, me gustaría detener el entrenamiento en el momento en que mi red neuronal deja de mejorar en un conjunto de datos de validación, diferente de los datos de entrenamiento.
¿Mi pregunta es cómo dividir mejor mis datos en datos de entrenamiento y validación? ¿Y deberían los datos de validación seleccionarse al azar o tomarse todos al final de la muestra?
Estoy tratando de predecir los precios de las acciones basándome en una ventana de precios pasados, y si selecciono aleatoriamente datos para la validación, ¿podría esto llevar a una fuga de información?