11 votos

Validación cruzada k-fold repetida frente a validación cruzada holdout repetida: ¿qué enfoque es más razonable?

Quiero dividir mis datos 100 veces (1/5 como prueba, 4/5 como entrenamiento), y utilizar los datos de entrenamiento para construir un modelo y los datos de prueba para calcular el MSE.

Hay dos maneras de hacerlo:

  1. Realice una validación cruzada de 5 pliegues 20 veces, es decir, cada vez las muestras se dividen en 5 pliegues, y cada pliegue se utilizará como conjunto de datos de prueba.

  2. Elija aleatoriamente 1/5 de los datos como conjunto de prueba y el otro como conjunto de entrenamiento. Haga esto 100 veces.

¿Cuál es más razonable? ¿Existe una teoría de la validación cruzada que proporcione una razón para preferir una u otra?

14voto

cbeleites Puntos 12461

El método más razonable depende de la conclusión que se quiera sacar exactamente.


En realidad, hay una tercera posibilidad que difiere de su versión 2 al elegir los datos de entrenamiento con sustitución . Esto está estrechamente relacionado con la validación fuera de la base (sólo se diferencia por el número de muestras de entrenamiento que se extraen).

A veces se prefiere la extracción con reemplazo en lugar de los métodos de validación cruzada, ya que se acerca más a la realidad (la extracción de una muestra en la práctica no disminuye la posibilidad de volver a extraer otra muestra de las mismas características, al menos mientras sólo se extraiga una fracción muy pequeña de la población real).

Preferiría una validación fuera de la rutina si quiero llegar a una conclusión sobre el rendimiento del modelo que se puede lograr si el algoritmo dado se entrena con $n_{train}$ casos del problema dado. (Aunque la advertencia de Bengio, Y. y Grandvalet, Y.: No Unbiased Estimator of the Variance of K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 también se aplica aquí: se intenta extrapolar de un conjunto de datos dado a otros conjuntos de datos de entrenamiento, y dentro de su conjunto de datos no hay manera de medir cuán representativo es realmente ese conjunto de datos)


Si, por el contrario, se quiere estimar (aproximadamente) la calidad de el Si el modelo que construyó en todo el conjunto de datos funciona con datos desconocidos (que, por lo demás, tienen las mismas características que sus datos de entrenamiento), preferiría el enfoque 1 (validación cruzada iterada/repetida).

  • Sus modelos sustitutos son una aproximación más cercana al modelo cuyo rendimiento se quiere conocer realmente, por lo que la menor aleatoriedad de los datos de entrenamiento es a propósito.
  • Los modelos sustitutos de la validación cruzada iterada pueden verse como versiones perturbadas (mediante el intercambio de una pequeña fracción de los casos de entrenamiento) de cada uno. Así, los cambios que se ven para el mismo caso de prueba puede atribuirse directamente a la inestabilidad del modelo.

Tenga en cuenta que, sea cual sea el esquema que elija para su validación cruzada o fuera de la base, sólo debe probar lo que $n$ casos. La incertidumbre causada por un número finito de casos de prueba no puede disminuir más, por mucho bootstrap o validación de conjuntos (su enfoque 2) o iteraciones de validación cruzada que ejecute.

La parte de la varianza que sí disminuye con más iteraciones/ejecuciones es la varianza causada por la inestabilidad del modelo.


En la práctica, sólo hemos encontrado pequeñas diferencias en el error total entre 200 ejecuciones de out-of-bootstrap y 40 iteraciones de $5$ -validación cruzada para nuestro tipo de datos: Beleites y otros. : Variance reduction in estimating classification error using sparse datasets, Chemom Intell Lab Syst, 79, 91 - 100 (2005). Tenga en cuenta que para nuestros datos de alta dimensión, la re-sustitución/autopredicción/error de entrenamiento se convierte fácilmente en 0, por lo que el .632-bootstrap no es una opción y no hay esencialmente ninguna diferencia entre out-of-bootstrap y .632+ out-of-bootstrap.

Para un estudio que incluye la retención repetida (similar a su enfoque2), véase Kim: Estimación de la tasa de error de clasificación: Validación cruzada repetida, retención repetida y bootstrap Computational Statistics & Data Analysis , 2009, 53, 3735 - 3745 .

2voto

Allen Puntos 139

Primero hay que entender que el objetivo subyacente de validación cruzada es para predecir la eficacia de un método que se construye para clasificar cualquier dato futuro es decir, comparar la eficacia de 2 o más métodos (si los hay). Como no conocemos ningún dato futuro, tenemos que hacer que el método sea eficiente de tal manera que dé la máxima eficiencia para cualquier al azar datos futuros. Así que, en cierto modo, tenemos que implementar la máxima aleatoriedad en nuestro validación cruzada.

Lógicamente, la segunda es más razonable ya que si se toman 5 conjuntos fijos como conjuntos de prueba, entonces prácticamente se está reduciendo aleatoriedad en gran medida como usted fijan qué conjunto de datos va a ser la base del modelo (el conjunto de entrenamiento) y cuál no. Sin embargo, si se genera un proceso aleatorio para seleccionar el conjunto de entrenamiento, entonces se implementa la verdadera aleatoriedad. "más verdadero" aplicación de la validación cruzada se llevará a cabo para su segundo proceso.

Sin embargo, todo lo que tiene pros también tiene contras. Al fin y al cabo, hay que tener en cuenta que la validación cruzada tiene que hacerse en todo el conjunto de datos por lo que se hace una validación cruzada 20 veces para agotar todo el conjunto de datos . 100 veces repitiendo el segundo proceso no (en realidad con muy baja probabilidad) agotan el conjunto de datos completo . Así que esto es una estafa de demasiada aleatoriedad .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X