9 votos

¿La validación cruzada para la implementación de influir en sus resultados?

Como ustedes saben, hay dos tipos populares de validación cruzada de K-fold y submuestreo aleatorio (como se describe en Wikipedia). Sin embargo, sé que algunos investigadores están haciendo y publicación de documentos donde algo que se describe como un K-fold CV es de hecho un submuestreo aleatorio uno, por lo que en la práctica nunca se sabe lo que realmente está en el artículo que estás leyendo.
Normalmente, por supuesto, la diferencia es inapreciable, y así va mi pregunta: ¿puedes pensar en un ejemplo, cuando el resultado de uno de los tipos es significativamente diferente de la otra?

6voto

spinodal Puntos 188

Ciertamente puede obtener resultados diferentes, simplemente porque se entrena en diferentes ejemplos. Yo dudo mucho de que hay un algoritmo o dominio del problema, donde los resultados de los dos se diferencian en algo de manera predecible.

3voto

Grant Puntos 5366

Normalmente, por supuesto, la diferencia es imperceptible, y así va mi pregunta - ¿puede usted pensar en un ejemplo cuando el resultado de un tipo de significativamente diferente de la otra?

No estoy seguro del todo la diferencia es inapreciable, y que sólo en ad hoc ejemplo va a ser notable. Tanto la validación cruzada y bootstrapping (sub-muestreo) métodos dependen críticamente de sus parámetros de diseño, y esta comprensión no está completa todavía. En general, los resultados dentro de k-fold cross-validation dependen críticamente sobre el número de pliegues, así que usted puede esperar siempre resultados diferentes de lo que usted observa en el sub-muestreo.

Ejemplo: digamos que usted tiene un verdadero modelo lineal con un número fijo de parámetros. Si utiliza k-fold cross-validation (con un dado, fijo k), y deje que el número de observaciones que ir hasta el infinito, k-fold cross validation será asintóticamente inconsistentes para la selección del modelo, es decir, identificar a una incorrecta modelo con una probabilidad mayor que 0. Este sorprendente resultado se debe a Shao Jun, "Modelo Lineal de Selección por Validación Cruzada", Revista de la Asociación Americana de Estadística, 88, 486-494 (1993), pero más artículos se pueden encontrar en esta vena.

En general, respetable documentos estadísticos especificar la cruz-protocolo de validación, exactamente, ya que los resultados no son invariantes. En el caso de que se elija a un gran número de pliegues para grandes conjuntos de datos, observación y tratar de corregir los sesgos en la selección de modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X