Si usted toma coleando, no sólo para incluir a dejar-uno-fuera pero cualquier tipo de remuestreo-sin-reemplazo como $k$veces los procedimientos, considero que es una opción viable y lo usan regularmente, por ejemplo, en
Beleites et al.: Espectroscopia Raman de clasificación de astrocitoma tejidos: suaves, información de referencia. Anal Bioanal Chem, 2011, 400, 2801-2816
ver también: intervalo de Confianza para la cruz-validar la exactitud de la clasificación
Evitar yo LOO por varias razones y en lugar de usar un iterado/repetido $k$veces esquema. En mi campo (química/espectroscopia/quimiometría), de la validación cruzada es mucho más común de lo que fuera-de-arranque de validación. Para nuestros datos/typcial aplicaciones se encontró que el $i$ veces reiterado $k$-fold cross validation y $i \cdot k$ iteraciones de bootstrap estimaciones de rendimiento son muy similares error total [Beleites et al.: De reducción de varianza en la estimación de error de clasificación utilizando conjuntos de datos dispersos. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.].
La ventaja particular veo para mirar a afirmar cruz de validación de esquemas más de bootstrapping es que estoy muy fácilmente puede derivar de la estabilidad/modelo medidas de la incertidumbre que puede ser intuitivamente explica, y es separado por dos differnt de las causas de la variación de la incertidumbre en la medición de rendimiento que están más entrelazados en el fuera-de-arranque de las mediciones.
Una línea de razonamiento que me lleva a la cruz de validación/coleando está mirando a la robustez del modelo: validación cruzada corresponde más directamente a las preguntas del tipo "¿Qué pasa con mi modelo si me exchange $x$ de los casos de $x$ nuevos casos?" o "¿Cómo robusto es mi modelo frente a la perturbación de los datos de entrenamiento mediante el intercambio de $x$ de los casos?" Esto es aplicable al arranque, pero menos directamente.
Tenga en cuenta que yo no intenta obtener los intervalos de confianza, debido a que mis datos son inherentemente agrupada ($n_s$ espectros de $n_p \ll n_s$ de los pacientes), así que prefiero informe
un (conservador) binomial intervalo de confianza utilizando el promedio de rendimiento observadas y $n_p$ tamaño de la muestra y
la varianza observo entre la $i$ iteraciones de la validación cruzada. Después de $k$ pliegues, cada caso es probado exactamente una vez, aunque por diferentes sustituto de los modelos. Por lo tanto, cualquier tipo de variación observada entre el $i$ carreras debe ser causados por el modelo de inestabilidad.
Normalmente, es decir, si el modelo está bien establecido, 2. sólo es necesario demostrar que es mucho menor que la varianza de 1., y que el modelo es, por tanto, razonablemente estable. Si 2. resulta ser no significativa, es el momento de considerar la posibilidad de agregados modelos: modelo de agregación de ayuda sólo de la variación causada por el modelo de inestabilidad, no puede reducir la varianza de la incertidumbre en la medición del rendimiento se debe a que el número finito de casos de prueba.
Tenga en cuenta que para construir el rendimiento de los intervalos de confianza para estos datos, me gustaría al menos considerar la posibilidad de que la varianza observada entre el $i$ carreras de la validación cruzada es la de la media de $k$ modelos de esa inestabilidad, es decir, yo diría que el modelo de la inestabilidad de la varianza se $k \cdot $ varianza observada entre la validación se ejecuta; además de la varianza debido a lo finito número de caso - para classifiation (éxito/error) medidas de desempeño, esta es la binomial. Para las medidas continuas, me gustaría probar para derivar la varianza de dentro de la validación cruzada ejecutar variación, $k$, y la estimación de la inestabilidad del tipo de varianza para el $k$ modelos derivados de la
La ventaja de la validación cruzada aquí es que se obtiene una separación clara entre la incertidumbre causada por el modelo de la inestabilidad y la incertidumbre causada por un número finito de casos de prueba. La correspondiente desventaja es que si usted se olvida de tomar la número finito de casos reales en cuenta, será severamente a una subestimación de la verdadera incertidumbre. Sin embargo, esto sucedería en el caso de arranque también (aunque en menor medida).
Hasta ahora, el razonamiento se concentra en la medición del rendimiento para el modelo que se derivan para un determinado conjunto de datos. Si usted se considera un conjunto de datos de la aplicación y del tamaño de la muestra, hay una tercera contribución a la varianza, que en lo fundamental no puede ser medido por el remuestreo de validación, ver, por ejemplo, Bengio Y Grandvalet: No Imparcial Estimador de la Varianza de K-Fold Cross-Validation, Diario de Aprendizaje de la Máquina de la Investigación, 5, 1089-1105 (2004). , también tenemos cifras que muestran estas tres contribuciones en Beleites et al.: Tamaño de la muestra planificación de los modelos de clasificación., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016/j.de aca.2012.11.007)
Creo que lo que pasa aquí es el resultado de la suposición de que el remuestreo es similar a dibujar una nueva muestra de su descomposición.
Esto es importante si el modelo de construcción de algoritmos/estrategias/heurística se comparan en vez de construir un modelo en particular para la aplicación y validación de este modelo.