1 votos

¿Cómo seleccionar los datos de validación al entrenar una red neuronal?

Estoy entrenando una red neuronal con datos financieros dependientes del tiempo. Con el fin de evitar el sobreajuste, me gustaría detener el entrenamiento en el momento en que mi red neuronal deja de mejorar en un conjunto de datos de validación, diferente de los datos de entrenamiento.

¿Mi pregunta es cómo dividir mejor mis datos en datos de entrenamiento y validación? ¿Y deberían los datos de validación seleccionarse al azar o tomarse todos al final de la muestra?

Estoy tratando de predecir los precios de las acciones basándome en una ventana de precios pasados, y si selecciono aleatoriamente datos para la validación, ¿podría esto llevar a una fuga de información?

0voto

John Richardson Puntos 1197

Si la selección de datos de validación es difícil debido a dependencias, entonces podría ser mejor considerar el uso de regularización Bayesiana en lugar de detenerse temprano para evitar el sobreajuste ya que el conjunto de validación no es necesario. La mayoría de los paquetes de redes neuronales tienen una implementación de este procedimiento, para MATLAB recomendaría NETLAB.

Sin embargo, tenga en cuenta que las dependencias en los datos pueden causar un problema de mala especificación del modelo (ya que el enfoque bayesiano estándar asume que los datos son i.i.d.). Entonces vale la pena intentarlo, pero no se garantiza que funcione.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X