Pregunta muy interesante, voy a tener que leer los papeles que dar... Pero tal vez esto va a comenzar a nosotros en la dirección de una respuesta:
Yo suelo hacer frente a este problema de una manera muy pragmática manera: yo recorrer en el k-fold cross validation con new random divide y calcular el rendimiento como de costumbre para cada iteración. El total de las muestras de la prueba son las mismas para cada iteración, y las diferencias provienen de diferentes divisiones de los datos.
Esto me informe como por ejemplo, el percentil 5 a 95 de los resultados observados wrt. el intercambio de hasta el $\frac{n}{k} - 1$ de muestras para muestras nuevas y discutir como una medida para el modelo de la inestabilidad.
Nota al margen: yo de todos modos no pueden utilizar las fórmulas que necesitan el tamaño de la muestra. Como mis datos están agrupados o una estructura jerárquica (muchos similares, pero no de mediciones repetidas de un mismo caso, por lo general, varios [cien] diferentes lugares de la misma muestra) no sé el tamaño efectivo de la muestra.
comparación de arranque:
iteraciones uso aleatorio se divide.
la principal diferencia es el remuestreo (bootstrap) o sin (cv) de reemplazo.
el coste computacional es el mismo, como yo prefiero no de iteraciones de cv $\approx$ no de bootstrap iteraciones / k, es decir, calcular el total del mismo no de modelos.
bootstrap tiene ventajas sobre cv en términos de algunas propiedades estadísticas (asintóticamente correcta, posiblemente necesita menos iteraciones para obtener una buena estimación)
-
sin embargo, con cv tiene la ventaja de que tienes la garantía de que
- el número de distintas muestras de formación es el mismo para todos los modelos (importante si se desea calcular las curvas de aprendizaje)
- cada muestra se prueba exactamente una vez en cada iteración
algunos métodos de clasificación de descarte de muestras repetidas, de modo de arranque no tiene sentido
Varianza para el rendimiento
respuesta corta: sí que tiene sentido hablar de la varianza en la situación en la que sólo {0,1} resultados de existir.
Eche un vistazo a la distribución binomial (k = éxitos, n = pruebas, p = true probabilidad de éxito = promedio de k / n):
$\sigma^2 (k) = np(1-p)$
La varianza de proporciones (tales como la tasa de éxito, tasa de errores, sensibilidad, TPR,..., usaré $p$ a partir de ahora y $\hat p$ para el valor observado en un test) es un tema que llena todo de libros...
- Fleiss: Métodos Estadísticos para las Tasas y Proporciones
- Forthofer y Lee: Bioestadística tiene una buena introducción.
Ahora, $\hat p = \frac{k}{n}$ y por tanto:
$\sigma^2 (\hat p) = \frac{p (1-p)}{n}$
Esto significa que la incertidumbre de la medición de la clasificador de rendimiento sólo depende del rendimiento real de p de la prueba del modelo y el número de muestras de prueba.
En la validación cruzada usted asume
que los k "sustituto" de los modelos tienen el mismo rendimiento real como el "verdadero" modelo que generalmente se construyen a partir de todas las muestras. (El desglose de este supuesto es el conocido sesgo pesimista).
que los k "sustituto" de los modelos tienen el mismo rendimiento real (son equivalentes, se han estable predicciones), por lo que se le permite a la piscina de los resultados de la k pruebas.
Por supuesto, entonces no sólo la k "sustituto" de los modelos de una iteración de cv pueden ser agrupadas pero el ki de los modelos de i iteraciones de k-fold cv.
Por qué repetir?
Lo principal de las iteraciones decirles es que el modelo (predicción) la inestabilidad, es decir, la varianza de las predicciones de los diferentes modelos de la misma muestra.
Usted puede informar directamente a la inestabilidad, como por ejemplo, la varianza en la predicción de un caso de prueba, independientemente de que la predicción es correcta o un poco más, como, indirectamente, la varianza de la $\hat p$ para diferentes cv iteraciones.
Y sí, esta es una información importante.
Ahora, si los modelos son perfectamente estables, todas las $n_{bootstrap}$ o $k \cdot n_{iter.~cv}$ produciría exactamente la misma predicción para una muestra dada. En otras palabras, todas las iteraciones tendría el mismo resultado. La varianza de la estimación no sería reducido por la iteración (asumiendo $n - 1 \approx n$). En ese caso, la hipótesis 2 de arriba se cumple y sólo están sujetos a $\sigma^2 (\hat p) = \frac{p (1-p)}{n}$, siendo n el número total de muestras analizadas en todos los k pliegues de la cv.
En ese caso, las iteraciones no son necesarios (excepto para la demostración de la estabilidad).
Usted puede entonces construir intervalos de confianza para el verdadero rendimiento de la $p$ de lo observado ninguna de éxitos $k$ $n$ pruebas. Así que, estrictamente, no hay necesidad de informe de la varianza de la incertidumbre de si $\hat p$ $n$ son reportados. Sin embargo, en mi campo, no muchas personas son conscientes de que ni siquiera tienen un intuitivo control sobre cómo los grandes de la incertidumbre que es con lo que el tamaño de la muestra. Así que te recomiendo para que informe de todos modos.
Si usted observa el modelo de la inestabilidad, que el conjunto de la media es una mejor estimación del verdadero desempeño. La varianza entre las iteraciones es una fuente importante de información, y se podría comparar a la espera de mínima varianza para un examen conjunto de tamaño n con el rendimiento real rendimiento promedio en todas las iteraciones.