Supongamos que tengo un sistema de referencia y un método propuesto por mí, y quiero comprobar si mi método es mejor que el sistema de referencia o no.
Los utilizo a ambos para entrenar en el mismo conjunto de entrenamiento y ajusto los hiperparámetros detrás de cada método (por ejemplo, el término de regularización) en el mismo conjunto de desarrollo, y elijo los mejores modelos para el sistema de referencia y mi método por separado en el conjunto de desarrollo y los evalúo en el mismo conjunto de pruebas ahora.
Es bastante común que un método pueda funcionar bien en el conjunto de desarrollo en comparación con el sistema de referencia, pero peor que el sistema de referencia en el conjunto de pruebas, y podemos decir que este método podría estar sobreajustado en el conjunto de desarrollo.
Sin embargo, ¿qué pasa si funciona de la otra manera y mi método funciona peor que el sistema de referencia en el conjunto de desarrollo pero mejor que el sistema de referencia en el conjunto de pruebas? ¿Significa que la generalización del modelo es buena, o podemos sacar algunas conclusiones útiles aquí?