8 votos

Las mejores prácticas para la medición y evitar el sobreajuste?

Estoy desarrollo de sistemas de trading automatizado para el mercado de valores. El gran reto ha sido el sobreajuste. Puede su recomendamos algunos de los recursos que describen los métodos para la medición y evitar el sobreajuste?

Empecé con el entrenamiento y validación de conjuntos, pero el conjunto de validación, siempre se contaminados.

También, la serie de tiempo de datos está siempre cambiando, porque el mercado está cambiando siempre. ¿Cómo se puede medir esto y determinar la probabilidad de resultados consistentes en invisible de datos?

Gracias.

4voto

John Richardson Puntos 1197

Para encajar en el modelo de selección, a continuación, un papel que vale la pena leer es

C. Ambroise y G. J. McLachlan, "sesgo de Selección en el gen de la extracción sobre la base de microarrays de expresión génica de datos", PNAS, vol. 99 no. 10 6562-6566, Mayo de 2002. http://dx.doi.org/10.1073/pnas.102102699

Para una discusión sobre el mismo tipo de problema que se plantea en el modelo de la selección de la

G. C. Cawley, N. L. C. Talbot, "En Más de ajuste en el Modelo de Selección y Posterior Sesgo de Selección en la Evaluación de Desempeño", Revista de la Máquina de Aprendizaje de la Investigación, 11(Julio):2079-2107, 2010. http://jmlr.csail.mit.edu/papers/v11/cawley10a.html

La manera de resolver el problema de la validación se contamine es el uso de anidado de validación cruzada, por lo que el método que se utiliza para tomar decisiones sobre el modelo se realiza de forma independiente en cada pliegue de la validación cruzada se utiliza para el desempeño de estimación. Esencialmente el rendimiento de estimación debe estimar el rendimiento de todo el modelo de procedimiento de ajuste (ajuste del modelo, la función de selección, selección de modelo, de todo).

El otro enfoque es el de ser un Bayesiano. El riesgo de sobre-ajuste se introduce cada vez que optimizar un criterio basado en una muestra finita de datos, así que si te marginan (integrar a cabo), en lugar de optimizar, a continuación, los clásicos sobre-ajuste es imposible. Usted, sin embargo, tienen el problema de la especificación de los priores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X