En algunos conferencias y tutoriales He visto que sugieren dividir los datos en tres partes: entrenamiento, validación y prueba. Pero no está claro cómo se debe utilizar el conjunto de datos de prueba, ni cómo este enfoque es mejor que la validación cruzada sobre todo el conjunto de datos.
Digamos que hemos guardado el 20% de nuestros datos como conjunto de pruebas. A continuación, tomamos el resto, lo dividimos en k pliegues y, utilizando la validación cruzada, encontramos el modelo que hace la mejor predicción sobre los datos desconocidos de este conjunto de datos. Digamos que el mejor modelo que hemos encontrado nos da 75% precisión.
Varios tutoriales y muchas preguntas en varios sitios web de preguntas y respuestas dicen que ahora podemos verificar nuestro modelo en un conjunto de datos guardado (de prueba). Pero sigo sin entender cómo se hace exactamente, ni para qué sirve.
Digamos que tenemos una precisión de 70% en el conjunto de datos de prueba. ¿Y qué hacemos ahora? ¿Probamos con otro modelo, y luego con otro, hasta que consigamos una puntuación alta en nuestro conjunto de datos de prueba? Pero en este caso parece que sólo encontraremos el modelo que se ajuste a nuestro limitado (sólo el 20%) conjunto de pruebas . Esto no significa que vayamos a encontrar el modelo que sea mejor en general.
Además, ¿cómo podemos considerar esta puntuación como una evaluación general del modelo, si sólo se calcula sobre un conjunto de datos limitado? Si esta puntuación es baja, puede que hayamos tenido mala suerte y hayamos seleccionado datos de prueba "malos".
Por otro lado, si utilizamos todos los datos que tenemos y luego elegimos el modelo utilizando la validación cruzada k-fold, encontraremos el modelo que hace la mejor predicción sobre los datos desconocidos del conjunto de datos completo que tenemos.