¿Cómo podemos construir un modelo, de la cruz de validar y utilizar para predecir datos desconocidos?
Decir que tengo un conocido conjunto de datos de 100 puntos. Pasos para 10 fold cross-validation son-
- Dividir los datos de forma aleatoria en el entrenamiento y la prueba de conjuntos de datos en una proporción de 90:10
- Hacer un modelo en el conjunto de datos de entrenamiento (90 puntos). (Yo libSVM grid.py para optimizar
C
ygamma
) - Prueba el modelo optimizado en el conjunto de datos de prueba (10 puntos) y calcular el error.
- Repita los pasos (1,2,3) 10 veces durante 10-fold cross validation. El promedio de los errores de cada repetición para obtener el promedio de error.
Ahora, después de repetir los pasos 10 veces, voy a tener 10 diferentes optimizado modelos. Para predecir para un desconocido conjunto de datos (200 puntos), se debe utilizar el modelo que me dio error mínimo O que debo hacer paso 2 una vez de nuevo en la totalidad de los datos (ejecutar grid.py en los datos completos) y se usa como modelo para la predicción de incógnitas?
También me gustaría saber, es el mismo procedimiento para la otra máquina-métodos de aprendizaje (como ANN, Bosque Aleatorio, etc.)