La división de la muestra de validación propuesto anteriormente, se ha vuelto menos popular en muchos campos debido a la cuestión Harrell menciona (poco fiable de la bolsa de las estimaciones). Sé Harrell ha mencionado en su libro de texto, pero otras referencias sería Steyerberg "los Modelos de Predicción Clínica" p301, James et al "Una Introducción a la Estadística de Aprendizaje" p175.
En el campo de la biomedicina boostrap de remuestreo se ha convertido en la norma. Esto se lleva a cabo en Harrell rms del paquete y de manera bastante fácil de implementar. Pero puedes utilizar cualquiera de los otros métodos de remuestreo, bootstap se ha vuelto popular debido a una Steyerberg artículo lo que sugiere que es el más eficiente de los métodos de remuestreo ("validación Interna de los modelos de predicción: la eficiencia de algunos de los procedimientos para el análisis de regresión logística").
Vale la pena mencionar que el beneficio de la rms paquete es que fácilmente le permite incluir algunos de la selección de variables en el bootstap (construido en la selección paso a paso de la opción). Esto puede ser difícil de lograr con la mayoría de los paquetes comerciales.
Tengo la sensación de que las diferencias han sido sobrevalorada. Yo suelo ser bastante fiable/resultados consistentes independientemente del método utilizado. Con tamaños de muestra grandes, las diferencias son realmente inexistente.
Bootstrap de validación, así como la de otros métodos de remuestreo - también pueden ser fácilmente hecho mal. A menudo sólo algunas de las etapas de la construcción de modelos se incluyen en el bootstrap dar estimaciones inexactas. Por otro lado es bastante difícil lío de división de la muestra de validación. Dada la cara de la validez de la división de muestreo - sé que ustedes no muck, prefiero dividir la muestra a menos que sea muy pequeño conjunto de datos. En muchos casos el modelo de proceso de creación es también bastante complicada que realmente no puede ser incluido en un método de remuestreo.
Si usted desea publicar en una revista biomédica sin embargo, y usted no está usando un plan de medicare tamaño de la base de datos, usted querrá usar un método de remuestreo - probablemente el arranque. Si el conjunto de datos es grande, por lo que es probable que todavía se publican con k-fold y ahorrar un poco de tiempo de procesamiento.