Mi primer consejo sería que, a menos que la identificación de los informativos de las características es un objetivo de los análisis, no se moleste con función de selección y sólo tiene que utilizar una de regularización, modelo, tal sancionado de regresión logística, regresión ridge o SVM, y dejar que la regularización de la manija de la sobre-ajuste. Se dice a menudo que la selección de la función de mejora de clasificador de rendimiento, pero no siempre es cierto.
De acuerdo con la clase de problema de desequilibrio, dar diferentes pesos a los patrones de cada clase en el cálculo de la pérdida de función utilizado para ajustar el modelo. Elija la relación de pesos por validación cruzada (para un clasificador probabilístico que pueda trabajar fuera de la asymptically pesos óptimos, pero que generalmente no le dan resultados óptimos en una muestra finita). Si usted está usando un clasificador que te puede dar diferentes pesos a cada clase, luego sub-muestra de la mayoría de la clase en su lugar, donde de nuevo la proporción de positivos y negativos de los patrones está determinado por validación cruzada (asegúrese de que la partición de pruebas en cada pliegue de la cruz-procedimiento de validación tiene la misma relación de clase frecuencias que esperar para ver en funcionamiento).
Por último, es a menudo el caso en la aplicación práctica, con una clase de desequilibrio que los falsos positivos y los falsos negativos no son de igual gravedad, por lo que incorporar esto en la construcción del clasificador.