22 votos

¿Es excesivo utilizar conjuntos de entrenamiento y de prueba para ajustar los hiperparámetros?

Tienes un conjunto de entrenamiento y un conjunto de prueba. Los combinas y haces algo como GridSearch para decidir los hiperparámetros del modelo. A continuación, se ajusta un modelo al conjunto de entrenamiento utilizando estos hiperparámetros y se utiliza el conjunto de prueba para evaluarlo.

¿Se trata de un sobreajuste? En última instancia, los datos no se ajustaron en el conjunto de prueba, pero éste se tuvo en cuenta a la hora de decidir los hiperparámetros.

1voto

La idea de la CV es superar los puntos débiles de la división entrenamiento-prueba (pérdida de información, utilización de sólo una parte para la prueba, etc.). Por lo tanto, CV garantiza que todas las partes de los datos caigan en los pliegues de entrenamiento y prueba en las iteraciones sucesivas. Esto garantiza que obtengamos una imagen equilibrada de lo que estamos intentando evaluar (elección de hiperparámetros, algoritmos, etc.).

Dada esta situación, debería utilizar todo el conjunto de datos para el ajuste. Si sólo utiliza el pliegue de entrenamiento, el hiperparámetro ajustado será específico del pliegue de entrenamiento y no de todos los datos. Según mi experiencia, el modelo mostraría un exceso de ajuste incluso después de realizar el ajuste utilizando únicamente el conjunto de datos Train.

En mi opinión, los profesionales están exagerando con el término "filtración de datos". En su afán por evitar la fuga de datos, dan demasiada importancia a la división entrenamiento-prueba, que no es más que una casualidad. La aplicación juiciosa del CV es el mejor enfoque. No una combinación de la división tren-prueba y la CV.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X