Como ustedes saben, hay dos tipos populares de validación cruzada de K-fold y submuestreo aleatorio (como se describe en Wikipedia). Sin embargo, sé que algunos investigadores están haciendo y publicación de documentos donde algo que se describe como un K-fold CV es de hecho un submuestreo aleatorio uno, por lo que en la práctica nunca se sabe lo que realmente está en el artículo que estás leyendo.
Normalmente, por supuesto, la diferencia es inapreciable, y así va mi pregunta: ¿puedes pensar en un ejemplo, cuando el resultado de uno de los tipos es significativamente diferente de la otra?
Respuestas
¿Demasiados anuncios?Normalmente, por supuesto, la diferencia es imperceptible, y así va mi pregunta - ¿puede usted pensar en un ejemplo cuando el resultado de un tipo de significativamente diferente de la otra?
No estoy seguro del todo la diferencia es inapreciable, y que sólo en ad hoc ejemplo va a ser notable. Tanto la validación cruzada y bootstrapping (sub-muestreo) métodos dependen críticamente de sus parámetros de diseño, y esta comprensión no está completa todavía. En general, los resultados dentro de k-fold cross-validation dependen críticamente sobre el número de pliegues, así que usted puede esperar siempre resultados diferentes de lo que usted observa en el sub-muestreo.
Ejemplo: digamos que usted tiene un verdadero modelo lineal con un número fijo de parámetros. Si utiliza k-fold cross-validation (con un dado, fijo k), y deje que el número de observaciones que ir hasta el infinito, k-fold cross validation será asintóticamente inconsistentes para la selección del modelo, es decir, identificar a una incorrecta modelo con una probabilidad mayor que 0. Este sorprendente resultado se debe a Shao Jun, "Modelo Lineal de Selección por Validación Cruzada", Revista de la Asociación Americana de Estadística, 88, 486-494 (1993), pero más artículos se pueden encontrar en esta vena.
En general, respetable documentos estadísticos especificar la cruz-protocolo de validación, exactamente, ya que los resultados no son invariantes. En el caso de que se elija a un gran número de pliegues para grandes conjuntos de datos, observación y tratar de corregir los sesgos en la selección de modelo.