Actualmente tengo un conjunto de datos, clase 1 con unos 8000 archivos de texto corto y clase 2 con unos 3000 archivos de texto corto. He aplicado LibSVM y probado un par de combinaciones de parámetros en el experimento de validación cruzada.
En general, la precisión de la clase 1 se sitúa en el intervalo de (85%, 90%); la precisión de la clase 2 se sitúa en el intervalo de (70% , 75%); la recuperación tanto de la clase 1 como de la clase 2 se sitúa en el intervalo de (80% , 85%).
Para clasificar el texto, he creado un espacio de características siguiendo los métodos habituales: clasificación del documento, filtrado de las palabras vacías y creación del vector de palabras mediante tf-idf o frecuencia binaria, etc. También probé el modelo n-gram para construir el espacio de características. Pero estos métodos no mejoraron mucho el rendimiento. Me gustaría saber si hay alguna otra forma de mejorar el rendimiento de LibSVM. LibSVM proporciona la búsqueda de cuadrícula para la configuración de parámetros, pero funciona bastante lento.