El método más razonable depende de la conclusión que se quiera sacar exactamente.
En realidad, hay una tercera posibilidad que difiere de su versión 2 al elegir los datos de entrenamiento con sustitución . Esto está estrechamente relacionado con la validación fuera de la base (sólo se diferencia por el número de muestras de entrenamiento que se extraen).
A veces se prefiere la extracción con reemplazo en lugar de los métodos de validación cruzada, ya que se acerca más a la realidad (la extracción de una muestra en la práctica no disminuye la posibilidad de volver a extraer otra muestra de las mismas características, al menos mientras sólo se extraiga una fracción muy pequeña de la población real).
Preferiría una validación fuera de la rutina si quiero llegar a una conclusión sobre el rendimiento del modelo que se puede lograr si el algoritmo dado se entrena con $n_{train}$ casos del problema dado. (Aunque la advertencia de Bengio, Y. y Grandvalet, Y.: No Unbiased Estimator of the Variance of K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 también se aplica aquí: se intenta extrapolar de un conjunto de datos dado a otros conjuntos de datos de entrenamiento, y dentro de su conjunto de datos no hay manera de medir cuán representativo es realmente ese conjunto de datos)
Si, por el contrario, se quiere estimar (aproximadamente) la calidad de el Si el modelo que construyó en todo el conjunto de datos funciona con datos desconocidos (que, por lo demás, tienen las mismas características que sus datos de entrenamiento), preferiría el enfoque 1 (validación cruzada iterada/repetida).
- Sus modelos sustitutos son una aproximación más cercana al modelo cuyo rendimiento se quiere conocer realmente, por lo que la menor aleatoriedad de los datos de entrenamiento es a propósito.
- Los modelos sustitutos de la validación cruzada iterada pueden verse como versiones perturbadas (mediante el intercambio de una pequeña fracción de los casos de entrenamiento) de cada uno. Así, los cambios que se ven para el mismo caso de prueba puede atribuirse directamente a la inestabilidad del modelo.
Tenga en cuenta que, sea cual sea el esquema que elija para su validación cruzada o fuera de la base, sólo debe probar lo que $n$ casos. La incertidumbre causada por un número finito de casos de prueba no puede disminuir más, por mucho bootstrap o validación de conjuntos (su enfoque 2) o iteraciones de validación cruzada que ejecute.
La parte de la varianza que sí disminuye con más iteraciones/ejecuciones es la varianza causada por la inestabilidad del modelo.
En la práctica, sólo hemos encontrado pequeñas diferencias en el error total entre 200 ejecuciones de out-of-bootstrap y 40 iteraciones de $5$ -validación cruzada para nuestro tipo de datos: Beleites y otros. : Variance reduction in estimating classification error using sparse datasets, Chemom Intell Lab Syst, 79, 91 - 100 (2005). Tenga en cuenta que para nuestros datos de alta dimensión, la re-sustitución/autopredicción/error de entrenamiento se convierte fácilmente en 0, por lo que el .632-bootstrap no es una opción y no hay esencialmente ninguna diferencia entre out-of-bootstrap y .632+ out-of-bootstrap.
Para un estudio que incluye la retención repetida (similar a su enfoque2), véase Kim: Estimación de la tasa de error de clasificación: Validación cruzada repetida, retención repetida y bootstrap Computational Statistics & Data Analysis , 2009, 53, 3735 - 3745 .