Para encajar en el modelo de selección, a continuación, un papel que vale la pena leer es
C. Ambroise y G. J. McLachlan, "sesgo de Selección en el gen de la extracción sobre la base de microarrays de expresión génica de datos", PNAS, vol. 99 no. 10 6562-6566, Mayo de 2002. http://dx.doi.org/10.1073/pnas.102102699
Para una discusión sobre el mismo tipo de problema que se plantea en el modelo de la selección de la
G. C. Cawley, N. L. C. Talbot, "En Más de ajuste en el Modelo de Selección y Posterior Sesgo de Selección en la Evaluación de Desempeño", Revista de la Máquina de Aprendizaje de la Investigación, 11(Julio):2079-2107, 2010. http://jmlr.csail.mit.edu/papers/v11/cawley10a.html
La manera de resolver el problema de la validación se contamine es el uso de anidado de validación cruzada, por lo que el método que se utiliza para tomar decisiones sobre el modelo se realiza de forma independiente en cada pliegue de la validación cruzada se utiliza para el desempeño de estimación. Esencialmente el rendimiento de estimación debe estimar el rendimiento de todo el modelo de procedimiento de ajuste (ajuste del modelo, la función de selección, selección de modelo, de todo).
El otro enfoque es el de ser un Bayesiano. El riesgo de sobre-ajuste se introduce cada vez que optimizar un criterio basado en una muestra finita de datos, así que si te marginan (integrar a cabo), en lugar de optimizar, a continuación, los clásicos sobre-ajuste es imposible. Usted, sin embargo, tienen el problema de la especificación de los priores.