Estoy tratando de construir un clasificador binario a partir de un tamaño relativamente grande médicos conjunto de datos (1 - enfermedad, 0 - no enfermedad). El conjunto de datos contiene alrededor de 500 pacientes, de los cuales el 9% de tener la enfermedad, y alrededor de 70 funciones (variables predictoras). Me gustaría probar: 1) selección de la función - para reducir el número de características 2) HIRIÓ de equilibrio del conjunto de datos de entrenamiento. 3) Aplicar el clasificador 4) Aplicar la validación cruzada
Cual es el mejor enfoque paso a paso? Especialmente tengo un dilema acerca de cuándo utilizar la función de selección? Si yo lo uso antes de HIRIÓ, las características seleccionadas, podría ser parcial? Pero la aplicación de antes, tengo un desequilibrio en el problema de datos. También, cuando es el momento adecuado para hacer la validación cruzada?