En algunos artículos, la validación cruzada se realiza después de la división entrenamiento/prueba mediante la división del conjunto de prueba en pliegues. En otros, la validación cruzada se realiza sin ninguna otra división.
Es probable que haya abusado de la terminología relativa a la validación cruzada. La verdad es que la mayoría de los artículos sobre redes neuronales no hacen validación cruzada. De hecho, he visto artículos en CVPR que hacen la selección del modelo y la presentación de informes de rendimiento utilizando un único conjunto val/test. Volviendo a su pregunta:
Artículo de Wikipedia sobre validación cruzada tiene un resumen bastante bueno: "Una ronda de validación cruzada consiste en dividir una muestra de datos en subconjuntos complementarios, realizar el análisis en un subconjunto (llamado conjunto de entrenamiento) y validar el análisis en el otro subconjunto (llamado conjunto de validación o conjunto de prueba). Para reducir la variabilidad, en la mayoría de los métodos se realizan múltiples rondas de validación cruzada utilizando diferentes particiones, y los resultados de la validación se combinan (por ejemplo, se promedian) a lo largo de las rondas para obtener una estimación del rendimiento predictivo del modelo."
Dado que repetir el entrenamiento de la red neuronal varias veces, cada vez utilizando un conjunto de entrenamiento diferente extraído de su conjunto de datos, puede ser costoso desde el punto de vista informático, la estrategia de selección de modelos más utilizada consiste en dividir el conjunto de datos una vez al inicio del experimento en la división entrenar/val/prueba. A continuación, se entrena una vez en el conjunto de entrenamiento, mientras que el seguimiento del rendimiento en el conjunto de validación. La selección del modelo se hace simplemente, como has dicho, eligiendo el modelo que obtiene mejores resultados en el conjunto de validación.
Esta conferencia (~12 minutos) de Andrew Ng lo describe muy claramente.