Permítanme añadir un par de puntos a las buenas respuestas que ya están aquí:
Anidado K-fold vs repetido K veces: anidados y se repite k veces son cosas completamente diferentes, se utilizan para diferentes propósitos.
-
Como usted ya sabe, anidada es buena si desea utilizar el interior de la cv para el modelo de selección.
- repite: en mi humilde opinión siempre debe repetir el k-fold cv [ver más abajo].
Por tanto, recomiendo a repetir anidadas k-fold cross validation.
Mejor informe "Las estadísticas de nuestro estimador de, por ejemplo, su intervalo de confianza de la varianza, media, etc. en el total de la muestra (en este caso, el CV de la muestra).":
Seguro. Sin embargo, usted debe ser consciente del hecho de que usted no (fácilmente) ser capaz de estimar el intervalo de confianza por parte de la cruz de validación de los resultados por si solos. La razón es que, por mucho que volver a muestrear, el número real de casos que vemos es finito, y por lo general bastante pequeños, de lo contrario no tendríamos preocuparse de estas distinciones).
Ver, por ejemplo, Bengio, Y. y Grandvalet, Y.: No Imparcial Estimador de la Varianza de K-Fold Cross-Validation Diario de la Máquina de la Investigación del Aprendizaje, 2004, 5, 1089-1105.
Sin embargo, en algunas situaciones, sin embargo, puede hacer una estimación de la varianza:
Con la repetición de la k-fold cross validation, usted puede obtener una idea de si el modelo de inestabilidad juega un papel. Y esta inestabilidad relacionada con la varianza es en realidad la parte de la varianza que puede reducir por repetir la validación cruzada.
(Si los modelos son perfectamente estables, cada repetición/iteración de la validación cruzada tendrá exactamente las mismas predicciones para cada caso. Sin embargo, usted todavía tiene varianza debida a la elección real/composición de su conjunto de datos). Así que hay un límite a la menor variación de las repetidas k-fold cross validation. Haciendo más y más repeticiones/iteraciones no tiene sentido, ya que la variación causada por el hecho de que, al final, sólo $n$ casos reales fueron probados no se ve afectada.
La variación causada por el hecho de que, al final, sólo $n$ casos reales fueron probados pueden ser estimados para algunos casos especiales, por ejemplo, el rendimiento de los clasificadores según lo medido por las proporciones, tales como la tasa de éxito, tasa de errores, sensibilidad, especificidad, valores predictivos y así sucesivamente: siguen distribuciones binomiales
Desafortunadamente, esto significa que tienen gran variación $\sigma^2 (\hat p) = \frac{1}{n} p (1 - p)$ $p$ el verdadero valor de desempeño del modelo, $\hat p$ a la observada, y $n$ el tamaño de la muestra en el denominador de la fracción. Esto tiene el máximo de $p = 0.5$. También puede calcular los intervalos de confianza a partir de la observación.
(@Frank Harrell comentar que estos no son adecuadas reglas de puntuación, por lo que de todos modos no se debe usar de ellos - que está relacionada con la variación enorme). Sin embargo, en mi humilde opinión son útiles para derivar conservador límites (hay mejores reglas de puntuación, y el mal comportamiento de estas fracciones es el peor de los casos límite para la mejora de las normas),
ver, por ejemplo, C. Beleites, R. Salzer y V. Sergo: Validación de Suave Clasificación de los Modelos de uso Parcial de la Clase de Pertenencias: Un Concepto Extendido de la Sensibilidad & Co. aplicado a la Calificación de Astrocitoma Tejidos, Chemom. Intell. Lab. Syst., 122 (2013), 12 - 22.
Así que esto me permite girar alrededor de su argumentación en contra de la sujeción:
- Tampoco remuestreo solo (necesariamente) dará una buena estimación de la varianza,
- OTOH, si puede razonar acerca de lo finito-prueba-muestra-tamaño de la varianza de la cruz de validación de la estimación, que es también posible para aguantar.
Nuestro estimador para esta medida han sido entrenados en un conjunto (por ejemplo, el CV) que es más pequeño que nuestra muestra inicial, puesto que tenemos que hacer espacio para la bodega -. Esto se traduce en una más sesgada (pesimista) estimación en P1 .
No necesariamente (si se compara con k-fold) - pero usted tiene que el comercio fuera de: los pequeños de sujeción de ajuste (por ejemplo, $\frac{1}{k}$ de la muestra => bajo de sesgo (≈ mismo como k-fold cv), varianza alta (> k-fold cv, aproximadamente por un factor de k).
Me parece que la presentación de informes sobre la sujeción de la prueba de conjunto es una mala práctica, ya que el análisis de la CV de la muestra es más informativo.
Por lo general, sí. Sin embargo, también es bueno tener en cuenta que existen importantes tipos de errores (drift) que no pueden ser medidos/detectado por el remuestreo de validación.
Ver, por ejemplo, Esbensen, K. H. y Geladi, P. Principios de una Correcta Validación: uso y abuso de re-muestreo para la validación, el Diario de la Quimiometría, 2010, 24, 168-187
pero a mi me parece que para el mismo número total de modelos de formación (total # de pliegues) que se repite K veces daría estimadores que son menos sesgada y más preciso que anidados K veces. A ver esta:
Repite K veces utiliza una mayor fracción del total de nuestra muestra que anidados K veces por el mismo K (es decir, conduce a la reducción de sesgo)
Yo diría que no a esto: no importa cómo el modelo de formación utiliza su $\frac{k - 1}{k} n$ muestras de formación, mientras que el sustituto de los modelos y el "verdadero" modelo de uso de la misma manera. (Miro el interior de validación cruzada / estimación de hyper-parámetros como parte de la modelo set-up).
Las cosas se ven diferentes si se compara sustituto de los modelos que están capacitados incluyendo hyper-optimización del parámetro de "el modelo" que se encuentra capacitado en el fijo de hyper-parámetros. Pero en mi humilde opinión que es generalizar a partir de $k$ manzanas 1 naranja.
100 iteraciones sólo daría 10 mediciones de nuestro estimador en anidada K-fold (K=10), pero el 100 mediciones en K-veces (más de las mediciones conduce a la reducción de la varianza en P2)
Si esto hace una diferencia depende de la inestabilidad de la (suplente) modelos, véase más arriba. Para los modelos estables es irrelevante. Así que puede ser si usted hace 1000 o 100 exterior repeticiones/iteraciones.
Y este papel definitivamente pertenece a la lista de lectura sobre este tema:
Cawley, G. C. y Talbot, N. L. C. En el Sobre-ajuste en el Modelo de Selección y Posterior Sesgo de Selección en la Evaluación del Rendimiento Diario de la Máquina de la Investigación del Aprendizaje, 2010, 11, 2079-2107