Estoy creando una máquina de soporte vectorial para muy desequilibrada de datos en el que la identificación de las instancias de la clase rara es de la mayor importancia. Puesto que los datos son tan desequilibrada, de entrenamiento y de prueba de un modelo con ningún tipo de muestreo los resultados en una forma extremadamente precisa modelo que funciona muy mal en términos de su tasa de verdaderos positivos.
Para asegurar que el modelo es capaz de distinguir adecuadamente entre el positivo y el negativo de clase I división de los datos en un entrenamiento y de prueba y realiza un muestreo de los raros de la clase dentro de los datos de entrenamiento. Esto me permite utilizar los datos de prueba para estimar el desempeño de la modelo, pero parece que no me deja, no pueden utilizar k-fold cross validation. Es el método que han utilizado un enfoque aceptable? Hay otra metodología que se recomienda?