¿Por qué debemos hacer una validación cruzada en lugar de utilizar un conjunto de validación independiente?
Aurélien Géron habla de ello en su libro
Para evitar "desperdiciar" demasiados datos de entrenamiento en los conjuntos de validación, una técnica común es utilizar la validación cruzada.
En lugar de otros valores de k, ¿por qué podemos preferir utilizar k=10 en la validación cruzada?
Para responder a esto, en primer lugar, me gustaría dar las gracias a Jason Brownlee, PhD para su gran tutorial en k-fold Cross-Validation. Cito uno de sus libros citados.
Kuhn & Johnson habló sobre el elección del valor k en su libro .
La elección de k suele ser 5 o 10, pero no hay ninguna regla formal. A medida que k aumenta, la diferencia de tamaño entre el conjunto de entrenamiento y los subconjuntos de sub-conjuntos de remuestreo se reduce. A medida que esta diferencia disminuye, el sesgo de la técnica es menor (es decir, el el sesgo es menor para k=10 que k= 5 ). En este contexto, el sesgo es la diferencia entre los valores estimados y reales del rendimiento
Entonces, uno puede decir que por qué no usamos la validación cruzada de dejar fuera (LOOCV) ya que el valor de k es máximo allí y por lo tanto, el sesgo será menor allí. En ese libro, también han hablado de por qué podemos preferir 10 veces CV en lugar de preferir LOOCV.
Desde un punto de vista práctico, los valores más grandes de k son más computacionalmente más pesados. En el extremo, LOOCV es más computacional porque requiere tantos ajustes del modelo como puntos de puntos de datos y cada ajuste del modelo utiliza un subconjunto que es casi del mismo tamaño del conjunto de entrenamiento. Molinaro (2005) encontraron que el leave-one-out y el k=10 veces la validación cruzada arrojó resultados similares, lo que indica que k= 10 es más atractivo desde el punto de vista de la computacional. También, valores pequeños de k, por ejemplo 2 o 3, tienen un sesgo alto pero son muy eficientes desde el punto de vista computacional.
He leído muchos trabajos de investigación sobre la clasificación de sentimientos y temas relacionados. La mayoría de ellos utilizan la validación cruzada de 10 veces para entrenar y probar los clasificadores. Eso significa que no se hace ninguna prueba/validación por separado. ¿Por qué?
Si no utilizamos la validación cruzada (CV) para seleccionar uno de los múltiples modelos (o no utilizamos la CV para afinar los hiperparámetros) No es necesario hacer una prueba por separado. La razón es que el propósito de hacer una prueba separada se cumple aquí en CV (por uno de los k pliegues en cada iteración). En diferentes hilos de SE se ha hablado mucho de esto. Usted puede comprobar.
Al final, no dudes en preguntarme si algo de lo que he escrito no te queda claro.
4 votos
¿Está seguro de que no se hicieron pruebas por separado?
1 votos
+1. Me he dado cuenta de lo mismo. Muchas veces, la validación cruzada de 10 veces es el resultado final reportado.