La regla general para dividir los datos en aprendizaje automático es en 3 partes training
set, validation
y testing
set. Todo el mundo lo sabe.
Por lo tanto, para probar el rendimiento de los distintos algoritmos, utilizamos el conjunto de pruebas dev set y el conjunto de entrenamiento training set.
Ahora después de encontrar los hiperparámetros correctos del modelo: ¿Por qué no añadimos los conjuntos de validación y entrenamiento para obtener un conjunto de entrenamiento mayor para que el modelo aprenda que el modelo tradicional entrenado sólo en el conjunto de entrenamiento y validado en el conjunto de validación?
¿No será el new training + validation set
¿ofrecer más prestaciones? ¿Y, por tanto, aumentar la precisión del modelo tras probarlo en el conjunto de pruebas? Porque más datos implican más características que aprender para el modelo y, por lo tanto, también aumentará el rendimiento en el conjunto de pruebas.