La idea que subyace tras la validación cruzada y la validación por espera es estimar el rendimiento de generalización de un algoritmo de aprendizaje, es decir, el rendimiento esperado en datos desconocidos/no vistos extraídos de la misma distribución que los datos de entrenamiento. Esto puede utilizarse para ajustar los hiperparámetros o informar del rendimiento final. La validez de esta estimación depende de independencia de los datos utilizados para el entrenamiento y la estimación del rendimiento. Si se viola esta independencia, la estimación del rendimiento tendrá un sesgo demasiado optimista. La forma más flagrante de que esto ocurra es estimar el rendimiento a partir de datos que ya se han utilizado para el entrenamiento o el ajuste de hiperparámetros, pero también hay muchas formas más sutiles e insidiosas.
El procedimiento por el que ha preguntado falla de múltiples maneras. En primer lugar, se utilizan los mismos datos tanto para el entrenamiento como para el ajuste de hiperparámetros. El objetivo del ajuste de hiperparámetros es seleccionar hiperparámetros que ofrezcan un buen rendimiento de generalización. Normalmente, esto se consigue estimando el rendimiento de la generalización para diferentes opciones de hiperparámetros (por ejemplo, utilizando un conjunto de validación) y, a continuación, eligiendo el mejor. Pero, como en el caso anterior, esta estimación será demasiado optimista si se han utilizado los mismos datos para el entrenamiento. La consecuencia es que se elegirán hiperparámetros subóptimos. En particular, habrá un sesgo hacia modelos de alta capacidad que se ajustarán en exceso.
En segundo lugar, los datos que ya se han utilizado para ajustar los hiperparámetros se reutilizan para estimar el rendimiento. Esto dará lugar a una estimación engañosa, como en el caso anterior. Esto no es sobreajuste en sí mismo, pero significa que, si el sobreajuste está ocurriendo (y probablemente lo está, como arriba), entonces usted no lo sabrá.
El remedio consiste en utilizar tres conjuntos de datos distintos: un conjunto de entrenamiento para la formación, un conjunto de validación para el ajuste de hiperparámetros y un conjunto de prueba para estimar el rendimiento final. O bien, utilizar la validación cruzada anidada, que dará mejores estimaciones, y es necesaria si no hay suficientes datos.