Como alguien introducción en el aprendizaje de máquina, estoy tratando de conseguir mi cabeza alrededor de las reglas de buenas prácticas a seguir cuando la construcción, las pruebas y la validación de los supervisados ML modelos con el fin de no contaminar mis pruebas y los conjuntos de validación y correr el riesgo de sobreajuste.
Digamos que he dividido mis datos en un entrenamiento, prueba y validación del conjunto de datos. Me gustaría probar varios algoritmos - por ejemplo, la regresión logística, RF, SVM y elegir el mejor de ellos.
- Puedo entrenar y probar todos los tres de los modelos, o sólo uno de ellos?
- ¿Puedo utilizar el conjunto de entrenamiento solo (es decir, en la validación cruzada) internamente prueba varios modelos?
- Dado que tengo un conjunto de validación, qué debo hacer después de haber usado mi conjunto de pruebas? Ajustar los parámetros de los modelos? ¿Cuántas veces?
- Si puedo combinar varios modelos en uno solo (conjunto de aprendizaje), en la que de paso lo voy a hacer?
- En su opinión, al mirar mi pregunta - ¿hay algo que he fundamentalmente mal entendido acerca de la formación/acercamiento de la prueba?