Las métricas de precisión de la validación cruzada son difíciles porque viven en una zona gris estadística en la que las muestras no proceden del mismo modelo, pero los modelos tampoco son independientes, ya que la mayoría de los datos de entrenamiento son los mismos. Lo ideal sería evitar esta situación reservando un conjunto de pruebas explícito. Si esto no es posible (por ejemplo, el conjunto de datos es demasiado pequeño para separarlo y seguir haciendo CV), generalmente es mejor evitar la agregación e informar de las estadísticas de cada pliegue. Esto puede decir mucho sobre la estabilidad del modelo, porque una precisión media del 80% en la que la mitad de los pliegues tienen una precisión del 100% y la otra mitad tienen una precisión del 60% tiene una interpretación muy diferente de aquella en la que cada pliegue es del 80%.
Además, puede informar de las medidas agregadas, pero dejando claro lo que está haciendo. Para ello, se suele colocar el agregado junto a un gráfico de los pliegues individuales.