La idea de la CV es superar los puntos débiles de la división entrenamiento-prueba (pérdida de información, utilización de sólo una parte para la prueba, etc.). Por lo tanto, CV garantiza que todas las partes de los datos caigan en los pliegues de entrenamiento y prueba en las iteraciones sucesivas. Esto garantiza que obtengamos una imagen equilibrada de lo que estamos intentando evaluar (elección de hiperparámetros, algoritmos, etc.).
Dada esta situación, debería utilizar todo el conjunto de datos para el ajuste. Si sólo utiliza el pliegue de entrenamiento, el hiperparámetro ajustado será específico del pliegue de entrenamiento y no de todos los datos. Según mi experiencia, el modelo mostraría un exceso de ajuste incluso después de realizar el ajuste utilizando únicamente el conjunto de datos Train.
En mi opinión, los profesionales están exagerando con el término "filtración de datos". En su afán por evitar la fuga de datos, dan demasiada importancia a la división entrenamiento-prueba, que no es más que una casualidad. La aplicación juiciosa del CV es el mejor enfoque. No una combinación de la división tren-prueba y la CV.