Tengo una duda fundamental sobre la validación cruzada. Sé que la validación cruzada entrena el modelo en el conjunto de datos, reservando una parte para probar el modelo, y que cada iteración del conjunto de datos de entrenamiento/prueba es diferente.
Pero mi principal preocupación es qué enfoque de entre los siguientes es el correcto
Enfoque 1
¿Debo pasar todo el conjunto de datos para la validación cruzada y obtener los mejores parámetros del modelo
Enfoque 2
- Haga una división de datos de entrenamiento y prueba
- Pase X_train y y_train para la validación cruzada (la validación cruzada se hará sólo en X_train e y_train. El modelo nunca verá X_test, y_test)
- Probar el modelo con los mejores parámetros obtenidos de la validación cruzada de X_train y y_train en X_test y y_test
Preocupación por el enfoque 1
¿Cómo voy a validar el modelo si está entrenado en todo el conjunto de datos?
Preocupación por el enfoque 2
Los parámetros obtenidos para este enfoque estarán sesgados a los datos presentes en X_train y y_train Cómo deshacerse de este sesgo